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量化 投资 与 现代 科技 


量化 投资 方法 被 广泛 应 用 在 国际 对 冲 基金 中 。 在 过 去 的 三 十 年 里 ， 由 于 计算 机 
技术 和 统计 分 析 技术 的 进步 ， 量 化 投资 方法 得 到 了 迅猛 的 发 展 。 

作为 量化 投资 基金 中 的 杰出 代表 ， 数 学 家 西蒙 斯 (Jim Simons) 所 领导 的 复兴 
科技 公司 (Renaissance Technology) 可 谓 独 树 一 帜 一 一 他 的 大 奖章 基金 在 1988 一 
2008 年 的 20 年 时 间 里 创造 了 年 均 收益 35. 6% 的 奇迹 。1958 4E, 20 岁 的 西蒙 斯 从 麻 
省 理工 大 学 数学 专业 本 科 毕 业 后 ， 转 和 加州 大 学 伯克利 分 校 攻读 数学 博士 ，1961 年 
博士 毕业 后 回 母校 麻 省 理工 大 学 任教 。 一 年 后 ， 他 跳槽 到 哈佛 大 学 任教 ， 又 在 1964 
年 进入 美国 国防 分 析 研究 院 工 作 。1967 年 ， 西 蒙 斯 出 任 纽约 大 学 石 溪 分 校 数学 系 系 
主任 。 在 此 期 间 ， 他 与 著名 华裔 数学 家 陈省身 合作 ， 创 造 了 著名 的 陈 - 西 蒙 斯 理论 ， 
并 于 1976 年 获得 美国 数学 学 会 的 威 布 伦 奖 。1978 年 ， 他 离开 石 溪 大 学 ， 成 为 职业 
投资 人 。1988 年 3 月 ， 西 蒙 斯 成 立 复兴 科技 公司 。 

除了 西蒙 斯 ， 复 兴 科 技 的 三 位 元 老 Leonard Baum、Henry Laufer 和 James Ax 都 
是 一 流 的 数学 家 ， 对 复兴 科技 的 长 期 发 展 产生 了 很 大 的 影响 一 一 Baum 是 西蒙 斯 在 国 
防 分 析 研 究 院 的 同事 ， 统 计 学 中 著名 的 Baum - Welsh 算法 的 发 明 者 ， 该 算法 被 广泛 
应 用 于 隐蔽 的 马尔 科 夫 模型 、 语 音 识别 、 生 物 和 应 用 统计 中 ; James Ax 也 曾 任 石 溪 
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大 学 数学 系 主任 ， 在 数论 和 几何 学 方面 造 讶 颇 深 ， 曾 在 1967 年 获得 美国 数学 学 会 数 
论 方面 的 科 伦 奖 ; Henry Laufer 也 曾 是 普林斯顿 大 学 数学 教授 ， 退 休 后 在 石 溪 大 学 创 
办 了 量化 投资 专业 ， 专 业 课程 包括 : 概率 论 与 统计 方法 、 线 性 规划 、 线 性 几何 、 数 
据 分 析 、 随 机 微 积分 、 金 融 计 量 、 最 优化 算法 、 资 产 定 价 、 投 资 组 合 、 金 融 市 场 、 
衍生 品 定价 、 固 定 收益 产品 等 。 

当然 ， 成 功 的 量化 投资 基金 ， 除 了 数学 家 西蒙 斯 所 领导 的 复兴 科技 ， 还 有 计算 
机 教授 肖 尔 (Рама Shaw) 领导 的 肖 尔 公司 ,物理 学 家 哈 丁 ( David Harding) 领导 
的 元 胜 资本 (Winton Capital), AEF xX EZ} (Kenneth Griffin) 领导 的 大 本 营 投 
资 (Citedal) 等 。 

一 些 国际 知名 的 对 冲 基金 对 人 才 的 要 求 也 可 归纳 为 以 下 内 容 : 很 强 的 电脑 编程 
能 力 (C, C++; API, FIX; R, Matlab, SAS 等 ) ; 很 强 的 数学 或 统计 学 分 析 技 能 
《线性 和 非 线性 时 序 分 析 ， 数 据 挖掘 ， 隐 项 马尔 科 夫 模型 ， 随 机 分 析 等 ) ; 很 强 的 大 
型 数据 库 处 理 能 力 ; 对 衍生 品 、 资 产 定价 、 市 场 微 结构 等 有 深入 了 解 。 

由 此 可 以 看 出 ， 量 化 投资 方法 是 现代 金融 理论 、 现 代数 理 方法 和 现代 信息 技术 
的 综合 体 ， 所 涉及 的 金融 理论 主要 包括 : 资产 定价 ， 投 资 组 合 ， 衍 生 品 定价 ,市场 
微 结构 ， 行 为 金融 学 等 ; 信息 技术 主要 包括 : 编程 技术 (C，C ++ ) ， 数 据 库 技术 ， 
交易 底层 通讯 技术 (API/FIX) ; 数理 方法 主要 包括 : 经 济 计量 分 析 基 础 ， 线 性 和 非 
线性 时 序 分 析 ， 数 据 挖掘 ， 隐 项 马尔 科 夫 模型 ， 随 机 分 析 等 。 

现代 金融 理论 为 量化 投资 提供 了 科学 的 理论 基础 。 资 产 定 价 、 衍 生 品 定价 、 行 
为 金融 学 和 市 场 微 结 构 是 量化 投资 策略 设计 的 科学 基础 ; 资产 组 合理 论 是 量化 投资 
降低 和 控制 风险 的 有 利 工具 。 

现代 信息 技术 和 计算 机 技术 为 量化 投资 提供 了 坚实 可 靠 的 工具 。 软 件 工程 和 数 
据 库 技术 是 量化 投资 策略 程序 化 的 基础 ; APL/FIX 是 交易 底层 自动 化 的 基础 。 以 上 
两 者 的 结合 ， 使 得 量化 投资 能 够 实现 完全 自动 化 交易 。 有 人 曾 说 ， 即 使 西蒙 斯 将 其 
所 用 策略 公众 于 世 ， 能 够 把 公式 变 成 钱 的 人 在 全 球 范围 内 仍然 是 屈指 可 数 。 可 见 电 
脑 技术 和 通讯 技术 在 量化 投资 中 的 重要 作用 。 
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数理 方法 是 量化 投资 最 为 核心 的 部 分 ， 也 是 数据 分 析 和 交易 策略 设计 以 及 评估 
的 基础 。 其 所 涉及 的 领域 也 是 五 花 八 门 ， 仁者见仁、 智者 见 智 ， 主 要 包括 : 经 济 计 
量 分 析 基 础 ， 线 性 和 非 线性 时 序 分 析 ， 数 据 挖掘 ， 隐 项 马尔 科 夫 模型 ， 随 机 分 析 ， 
小 波 分 析 等 。 西 蒙 斯 曾经 说 过 ， 如 果 偏 离 了 数学 模型 ， 将 对 我 们 公司 没有 任何 好 处 。 

在 过 去 近 十 年 的 时 间 里 ， 作 者 本 人 作为 摩根 大 通 期 货 公 司 (JP Morgan Futures 
Co.) 的 董事 ， 有 机 会 接触 到 一 些 国际 知名 的 对 冲 基金 ， 共 同 进行 深入 的 研究 和 合 
作 ， 元 胜 资 本 (Winton Capital) 就 是 其 中 的 一 个 。 作 为 全 球 最 大 的 管理 期 货 (期 货 
对 冲 基金 ) ， 元 胜 资本 管理 着 约 300 亿美 金 的 资产 ， 在 其 创始 人 科学 家 哈 丁 先生 的 领 
FF, FE 1987 年 至 今 这 25 年 的 时 间 里 创造 了 1696 —17% 的 年 均 收益 。 仅 从 年 均 收 
益 的 数字 来 看 ， 元 胜 资 本 不 如 复兴 科技 可 观 ， 但 大 家 要 知道 的 重点 是 ， 复 兴 科 技 的 
大 奖章 基金 的 规模 只 有 约 50 亿美 元 ， 而 元 胜 资本 的 规模 则 接近 300 亿美 元 。 

元 胜 资本 现 有 员工 200 2 Л, iE 50% 为 研究 人 员 ， 远 离 热闹 非凡 的 一 线 业 务 ， 
专心 从 事 研 究 工作 。 若 简单 地 按照 国际 对 冲 基 金 2% —20% 的 收费 标准 ， 元 胜 资本 
的 员工 创造 了 人 均 产 出 近 亿 元 人 民 币 的 奇迹 。 可 见 ， 现 代 科 技 与 金融 的 结合 能 够 创 
造 出 巨大 的 财富 ， 量 化 投资 行业 绝对 是 高 科技 产业 中 的 佼佼 者 。 

在 过 去 的 三 十 多 年 里 ， 我 一 直 从 事 计 量 经 济 方法 和 信息 技术 方面 的 学 习 和 研究 ， 
本 系列 丛书 也 算是 我 和 我 的 学 生 们 对 过 去 多 年 学 习 和 研究 的 小 结 。 这 里 ， 首 先 要 感 
谢 我 的 中 国 老师 们 : 中 国人 民 大 学 财 金 学 院 的 黄 达 教 授 (我 的 博士 导师 ， 前 校长 ) ， 
陈 共 教 授 (前 财政 系 主任 )， 王 传 伦 教 授 ; 经 济 学 院 的 杜 厚 文教 授 (前 国际 经 济 系 
主任 ， 前 副 校长 ) ， 王 景 新 教授 (我 的 硕士 导师 ) ; ASEM RBA (前 院 长 )， 
方 美 琪 教授 (我 的 本 科 导 师 ) ， 魏 权 龄 教授 ， 张 怡 兰 教授 ， 严 颖 教授 ; 北京 大 学 数 
学 系 的 王 苯 芳 教授 。 感 谢 我 的 美国 老师 们 : George Horwich 教授 (美国 普 渡 大 学 ， 
我 的 博士 后 导师 ) Roger Gordon 教授 夫妇 【〈 加 州 大 学 圣地 亚 哥 分 校 ) 和 Mark 
Machina 教授 (加 州 大 学 圣地 亚 哥 分 校 ) Kajal Lahiri 教 授 (纽约 大 学 阿尔 巴 尼 分 
Ж) AH Harold Watts 教授 (哥伦比亚 大 学 ) 。 他 们 的 教育 使 我 领略 了 数学 的 美妙 、 计 
算 机 的 精巧 、 计 量 经 济 的 严 间 以 及 金融 市 场 的 奥妙 ， 为 日 后 的 量化 投资 研究 莫 定 了 
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坚实 的 金融 、 经 济 、 数 理 和 计算 机 基础 。 

非常 感谢 中 国人 民 大 学 校长 陈 雨 露 教授 ， 金 融 与 证 券 研 究 所 所 长 吴晓求 教授 
(校长 助理 ) ， 财 金 学院 院 长 郭 庆 旺 教授 ， 副 院 长 赵 锡 军 教授 ， 他 们 多 年 的 友情 、 
宽容 和 理解 使 得 我 能 够 有 充分 的 自由 和 时 间 ， 在 中 国 和 英国 两 地 从 事 我 所 感 兴 趣 
的 研究 项 目 。 我 也 非常 感谢 伯明翰 大 学 商学 院 的 同事 们 : David Dickinson (前 院 
K), Nicholas Horsewood, Robert Elliott, Toby Kendall, Alessandra Guariglia 和 Wil- 
liam Pouliot, 

感谢 摩根 大 通 期 货 公 司 董事 长 周 小 雄 先 生 多 年 来 兄长 般 无 微 不 至 的 关照 。 感 谢 
元 胜 资本 的 创始 人 David Harding, 元 胜 亚洲 CEO Charles Allard, Kurt Settle 和 田野 先 
生 。 与 元 胜 资本 的 合作 ， 尤 其 是 元 胜 资本 每 年 的 年 会 使 我 眼界 大 开 ， 受益 菲 浅 。 感 
谢 AHL -牛津 量化 金融 研究 院 (AHL - Oxford Institute) 使 我 有 机 会 参加 他 们 举办 的 
世界 一 流水 平 有 关 量 化 投资 的 研讨 会 。 

最 后 ， 感 谢 我 在 中 国人 民 大 学 和 英国 伯明翰 大 学 所 指导 的 学 生 们 ， 尤 其 是 中 国 
人 民 大 学 财 金 学 院 的 博士 生 、 硕 士 生 和 实验 班 的 学 生 们 ， 他 们 根据 我 的 讲稿 帮助 整 
理 了 这 套 丛书 中 的 很 多 内 容 。 尤 其 是 我 的 博士 生 杨 武 〈 现 任教 于 中 央 财 经 大 学 ) RH 
滔 ( 现 任职 于 中 国人 民 银 行 研究 所 ) FH 〈 现 任职 于 国家 审计 署 ) D$ (SER 
于 北京 工商 大 学 ) KF, 029, XM, Rf, EF; 还 有 我 在 伯明翰 大 学 的 博 
LEHR, EER, KE (PIKE), ， 他 们 对 量化 投资 的 深入 研究 督促 着 我 
不 断 学 习 新 的 知识 。 这 些 学 生 们 对 新 知识 的 追求 ， 使 得 我 多 年 来 不 敢 懈 念 ， 不 断 学 
习 。 从 他 们 身上 ， 我 看 到 了 中 国 量 化 投资 业 的 未 来 。 

出 版 量化 投资 方法 丛书 的 主要 目的 是 为 国内 的 投资 者 系统 地 介绍 有 关 量 化 投资 
理论 、 技 术 和 方法 ， 国 际 上 成 功 的 量化 对 冲 基 金 公 司 ， 以 及 量化 投资 的 研究 成 果 和 
量化 投资 产业 的 发 展 动向 。 本 丛书 内 容 主要 包括 : 经 济 计量 分 析 基 础 ， 投 资 组 合理 
论 与 实践 ， 时 序 分 析 与 神经 网 络 ， 金 融 数据 挖掘 ， 解 密 复兴 科技 ， 随 机 分 析 ， 小 波 
分 析 等 。 

我 深切 地 希望 ， 此 套 从 书 能够 为 中 国 的 证 券 、 基 金 、 期 货 、 私 募 以 及 个 人 投资 
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者 提高 量化 投资 水 平 起 到 抛砖引玉 的 作用 。 

写 这 个 总 序 前 后 花 了 我 三 、 四 个 月 的 时 间 ， 从 北京 写 到 香港 ， 从 香港 写 到 英国 ， 
从 英国 写 到 法 国 ， 最 后 又 从 法 国 写 回 北京 。 每 次 提 笔 都 是 千言 万 语 涌 上 心头 ， 本 人 
最 大 的 心愿 就 是 在 未 来 20 到 30 年 时 间 里 ， 中 国 能 够 出 现 复兴 科技 和 元 胜 资本 这 样 
世界 一 流 的 对 冲 基金 。 

为 此 ， 我 愿 奉献 一 生 ! 


=Z“ 


2013 9 月 于 中 国人 民 大 学 
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马尔 科 夫 模型 广泛 应 用 于 信息 通讯 、 计 算 机 科学 、 生 物 遗 传 学 、 金 融 学 、 经 济 
学 等 领域 。 出 版 本 书 的 主要 目的 就 是 系统 地 介绍 基于 隐蔽 马尔 科 夫 模型 (HMM) 的 
时 序 分 析 方法 及 其 在 量化 投资 中 的 应 用 。 

基于 马尔 科 夫 模型 的 时 序 分 析 方法 的 重要 性 ， 可 以 从 复兴 科技 公司 关键 人 物 的 
研究 背景 中 略 见 一 斑 ， 他 们 包括 : Leonard Baum， 著 名 的 Baum - Welsh 算法 的 创始 
人 ， 该 算法 解决 了 不 可 观察 变量 概率 的 计算 问题 ， 被 广泛 应 用 于 语音 识别 和 信息 解 
fj; Elwyn Berlekamp， 统 计 信息 理论 的 专家 ; Nick Patterson， 剑 桥 大 学 数学 博士 ， 
国际 顶级 的 隐蔽 马尔 科 夫 模型 的 专家 ，1993 年 加 入 复兴 科技 公司 ; 此 外 ， 还 有 原 
IBM 实验 室 的 语音 识别 专家 Peter Brown, Robert Mercer， 以 及 该 实验 室 进行 机 器 翻 
译 研究 的 其 他 专家 。 

人 们 可 能 要 问 ， 复兴 科技 为 什么 要 雇佣 世界 上 最 优秀 的 语音 识别 专家 和 机 器 翻 
译 专家 呢 ? 复兴 科技 研究 人 员 给 出 的 答案 是 : “投资 和 语音 识别 ， 二 者 很 相似 ， 都 
是 预测 下 一 步 将 要 发 生 的 事情 。” 曾 在 Google 工作 过 的 腾讯 公司 副 总 裁 吴 军 博士 在 
其 所 写 的 《数学 之 美 》 一 书 中 多 次 提 到 这 些 方法 的 重要 性 。2012 年 ， 我 兽 买 了 几 十 
本 《数学 之 美 》 送 给 中 国人 民 大 学 财 金 学 院 实验 班 的 学 生 们 。 

由 于 传统 的 经 济 计量 方法 在 预测 精度 方面 存在 极 大 缺陷 ， 计 量 经 济 研究 人 员 在 
经 历 了 20 世纪 60—70 年 代 的 痛苦 挣扎 后 ， 在 20 世纪 80 年 代 开 始 将 注意 力 转移 到 
对 时 序 分 析 方 法 (Time Series Analysis) 的 研究 。 尤 其 是 ，1980 年 初 ，C. Sims 在 顶 
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级 计量 经 济 学 杂志 《Econometrica》 上 发 表 了 著名 的 《Marcoecnomics and Reality) — 
文 后 ， 时 序 分 析 方 法 成 为 计量 研究 的 主流 。 在 时 序 分 析 方 面 ， 美 国 加 州 大 学 圣地 亚 
哥 分 校 (UCSD) 经 济 系 最 为 杰出 ， 以 Cliver Granger, Robert Engle 和 James Hamilton 
为 代表 人 物 。 其 中 ，Cliver Granger 和 Robert Engle 曾 获 2003 年 度 诺 贝尔 经 济 学 奖 ; 
UCSD 经 济 系 主任 James Hamilton 所 著 《Time Series Analysis》 一 书 自 1994 年 出 版 以 
来 ， 成 为 全 世界 顶级 大 学 经 济 学 、 金 融 学 博士 生 们 研究 时 序 分 析 方 法 的 必 读 书目 。 

我 之 所 以 关注 UCSD 是 因为 20 世纪 80 年 代 在 福特 班 教 我 微观 经 济 学 和 计量 经 
济 学 的 老师 Mark Machina 教授 来 自 UCSD。 我 从 他 身上 学 到 了 很 多 东西 ， 尤 其 是 他 
的 讲课 风格 ， 对 我 影响 极 大 。Mark 毕业 于 MIT， 是 全 球 研究 不 确定 性 问题 的 大 师 。 
在 不 确定 性 领域 ， 他 对 任何 复杂 问题 都 能 深入 浅 出 地 讲解 清楚 。 我 从 福特 班 毕业 后 ， 
曾 多 次 担任 他 的 助教 受益 菲 浅 。 后 来 ， 在 福特 班 教 我 宏观 和 微观 经 济 学 的 教授 
Roger Gordan 夫妇 也 到 该 系 任教 。 

20 世纪 90 年 代 末 至 今 ， 我 陆续 推荐 自己 的 硕士 生 去 UCSD 攻读 博士 学 位 。 尤 
其 是 前 几 年 ， 我 的 博士 生 邓 磊 争 取 到 了 北京 市 留学 基金 会 的 奖学金 ， 在 我 和 肖 志 杰 
教授 (Boston College) 的 推荐 ， 以 及 UCSD 孙 一 哺 教 授 的 帮助 下 ， 到 UCSD 进行 了 
两 个 学 期 的 学 习 访问 。 在 这 段 时 间 里 ， 邓 乔 学 到 很 多 东西 、 提 高 很 快 ， 我 由 囊 地 感 
到 高 兴 。 在 此 ， 对 肖 志 杰 教 授 、 孙 一 啸 教授 的 帮助 和 北京 市 留学 基金 会 的 资助 表示 
感谢 ! 

我 最 早 接触 马尔 科 夫 链 是 在 20 世纪 80 年 代 初 期 ， 当 时 我 在 中 国人 民 大 学 信息 
系 学 习 运 筹 学 。 真 正 意识 到 它 的 重要 性 ， 还 与 芝加哥 大 学 有 关 。1994 年 ， 我 在 普 渡 
大 学 进行 博士 后 研究 期 间 ， 我 的 博士 后 导师 Ceorge Horwich 带 我 去 拜访 他 在 芝加哥 
大 学 任教 的 几 位 老 同 学 。 我 也 顺便 去 看 看 我 的 学 生 、 当 时 在 芝加哥 大 学 攻读 博士 学 
位 的 戴 显 峰 ， 顺 便 关心 一 下 他 的 学 习 情 况 。 当 小 戴 谈 到 计量 经 济 课程 时 ， 提 到 了 当 
时 刚刚 出 版 的 《Time Series Analysis》 一 书 。 此 时 ， 我 意识 到 了 时 序 分 析 方 法 在 未 来 
的 计量 分 析 研究 中 的 重要 性 。 

2000 年 初 ， 我 作为 中 国人 民 大 学 世界 经 济 研究 所 所 长 主持 召开 了 “世界 经 济 与 
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中 国 ” 年 会 ， 并 邀请 了 来 自 意大利 、 美 国 、 英 国 和 加 拿 大 的 专家 学 者 们 。 在 这 次 会 
议 上 ， 我 结识 了 来 自 法 国 Aix - Marseille 大 学 的 Eric Girardin 教授 。Eric 毕业 于 英国 
剑桥 大 学 ， 是 应 用 计量 方面 的 专家 ， 他 创建 的 全 英文 授课 的 金融 计量 硕士 项 目 在 法 
国教 育 部 的 专业 排名 中 名 列 前 翁 。 当 他 得 知 我 在 人 民 大 学 经 济 学 院 教 授 计 量 经 济 学 
时 ,提出 合作 研究 的 建议 。 我 们 最 后 决定 将 研究 重点 集中 在 如 何 利 用 Hamilton 
(1989) 的 MS - AR 模型 来 研究 中 国 的 股市 。 

此 后 的 四 、 五 年 时 间 里 ,我 每 年 都 到 普罗 旺 斯 去 拜访 Eric 一 段 时间 ， 一边 讲 
^E. 一边 做 研究 ; Eric 也 每 年 都 到 北京 ， 继 续 讨论 我 们 的 研究 或 修改 我 们 合 写 的 文 
章 。 在 此 期 间 ， 我 们 先后 在 2003 年 《Journal of Chinese Economic and Business Stud- 
ies》 的 创刊 号 上 发 表 了 《The Chinese Stock Market: A Casino With “Buffer Zones”》 
一 文 ; fE (China Economic Review) 2005 年 第 4 期 和 2007 年 第 3 期 发 表 了 《Bank 
Credit and Seasonal Anomalies in Chinas Stock Markets) 和 《The Financial Integration of 
China; New Evidence on Temporally Aggregated Data for the A - share Market) 等 成 果 。 

2007 年 以 后 ， 由 于 我 担任 JP Morgan Futures 的 董事 ，Eric 担任 亚洲 开发 银行 学 
术 委 员 会 欧洲 委员 、 香 港 金融 管理 局 高 级 顾问 ， 时 间 都 很 紧张 ， 只 能 暂时 放下 我 们 
的 合作 。 

近年 来 ， 作 为 ЈР Morgan Futures 的 董事 ,我 有 机 会 接触 到 很 多 国际 一 流 对 冲 基 
金 的 创始 人 、 管 理 者 和 研究 人 员 ， 参 加 他 们 的 年 会 和 研讨 会 。 所 有 这 些 ， 都 大 大 加 
深 了 我 对 量化 投资 方法 的 认识 ， 尤 其 是 意识 到 HMM 和 MS - AR 模型 在 量化 投资 中 
的 重要 性 。 于 是 ， 在 2012 一 2013 年 这 两 年 的 时 间 里 ,我 为 中 国人 民 大 学 财 金 学 院 实 
验 班 的 学 生 讲 授 了 Kalman Filter, HMM 和 MS - AR 模型 及 其 在 金融 研究 中 的 应 用 。 
本 书 的 大 部 分 内 容 都 是 根据 我 的 讲稿 整理 、 精 简 而 成 。 

从 表面 上 看 , 复兴 科技 这 样 的 对 冲 基金 公司 与 谷歌 这 样 的 高 科技 公司 相差 十 万 
AFH; 但 从 实质 上 来 看 ， 他 们 都 是 信息 技术 公司 ,都 是 依靠 最 新 的 科学 理论 、 技 
术 方 法 和 最 先进 的 计算 机 技术 的 高 科技 公司 。 他 们 的 不 同 之 处 在 于 ,谷歌 公司 研究 
的 是 如 何 从 数 以 亿 计 的 互联 网 数据 中 帮助 人 们 找到 最 有 用 的 信息 ， 而 复兴 科技 则 是 
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从 这 些 数 据 中 找到 能 够 判断 金融 市 场 上 升 或 下 降 的 信息 。 

本 书 分 为 四 个 部 分 : 

第 一 部 分 主要 介绍 与 此 相关 的 数学 基础 : 第 一 章 介 绍 最 大 似 然 估计 法 ， 第 二 章 
介绍 贝 叶 斯 分 析 方法 ， 第 三 章 介 绍 马尔 科 夫 链 的 基本 知识 。 

第 二 部 分 将 详细 介绍 НММ: 第 四 章 主 要 介绍 单 变量 的 HMM， 而 且 状态 也 是 基 
于 齐 次 马尔 科 夫 链 ， 既 没有 趋势 也 没有 季节 变动 ; 第 五 章 和 第 六 章 将 讨论 HMM 参 
数 估 计 、 预 测 与 解码 问题 、 隐 项 状态 的 估计 问题 、 模 型 选择 和 模型 检验 等 问题 。 

第 三 部 分 将 主要 介绍 马尔 科 夫 状态 转换 模型 : 第 七 章 介绍 序列 不 相关 的 马尔 科 
夫 状 态 转换 模型 ;第 八 章 介绍 序列 自 相关 的 马尔 科 夫 状态 转换 模型 ， 第 九 章 介 绍 
MS - AR 模型 的 估计 方法 。 

第 四 部 分 提供 了 两 个 应 用 实例 : 第 十 章 介 绍 MS - AR 模型 在 宏观 经 济 分 析 中 的 
应 用 ， 第 十 一 章 介绍 HMM 和 SWARCH 模型 在 股市 投资 中 的 应 用 实例 。 

最 后 ， 感 谢 第 一 财经 频道 的 陈 琦 、 燕 阳 和 上 海 对 冲 基金 产业 园 邀 请 我 为 在 沪 的 
国内 规模 最 大 的 几 十 家 私募 基金 公司 的 高 管 们 讲解 有 关 复 兴 科 技 的 方法 和 策略 研究 。 
感谢 Winton Capital ( Asia) 主席 Charles Allard 先生 邀请 我 到 Winton Capital 英国 总 部 


做 有 关 HMM, MS - AR 模型 和 交易 策略 设计 方面 的 演讲 。 


写 于 飞 往 阿姆斯特丹 的 飞机 上 
修改 于 英国 伯明翰 大 学 J. С. Smith 楼 
2013 Æ 12 H 31 H 


如 果 偏 离 了 数学 模型 ， 将 对 我 们 公司 没有 任何 好 处 。 
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解密 复兴 科技 


作为 量化 投资 基金 中 的 杰出 代表 ,“ 量 化 之 王 ” 数 学 家 西蒙 斯 (Jim Simons) 所 
领导 的 复兴 科技 公司 (Renaissance Technology Corp. ， 简 称 “ 复 兴 科 技 ”) 可 谓 独 树 
一 帜 ， 旗 下 规模 为 50 亿美 金 的 大 奖章 基金 (Medallion) 在 1988—2008 年 的 20 年 时 
间 里 ， 创 造 了 年 均 收 益 超过 35% 的 奇迹 ， 这 还 要 扣除 5% 的 资产 管理 费 以 及 44% 的 
投资 收益 分 成 等 费用 ， 并 经 过 严格 的 财务 审计 。 

不 仅 于 此 ， 历 史上 的 大 奖章 基金 面 对 多 次 金融 危机 和 政策 波动 都 有 杰出 的 表现 。 
1994 年 ， 美 联储 连续 6 次 加 息 ， 大 奖章 基金 净 赚 了 71%; 2000 年 科技 股 股灾 ， 标 
普 指 数 下 跌 了 10% ， 大 奖章 基金 却 大 获 丰收 ， 净 回报 率 高 达 98.5% ; 2008 年 ， 全 
球 金融 危机 ， 各 类 资产 价格 下 滑 ， 大 部 分 对 冲 基 金 都 亏损 ， 而 大 奖章 基金 净 赚 
T 80% , 

美国 著名 对 冲 基金 观察 家 Antoine Bernheim 曾 说 过 :“ 西 蒙 斯 才 是 真正 的 NO. 1, 
他 超越 了 乔治 索 罗 斯 (George Soros), Ый. 金 顿 (Mark Kingdon), ， 布 鲁 斯 ， 科 
JAN (Bruce Kovner) 和 蒙 罗 : 特 劳 特 (Monroe Trout) o” 

本 书 题目 之 所 以 不 是 揭秘 ， 而 是 解密 ， 是 因为 复兴 科技 不 是 仅仅 使 用 一 种 方法 ， 
而 是 融合 了 很 多 种 方法 ， 我 们 在 这 里 谈 的 是 复兴 科技 最 主要 的 方法 之 一 : 隐蔽 马尔 
科 夫 模型 (HMM). 为 什么 我 们 会 认为 HMM 是 复兴 科技 采用 的 主要 方法 呢 ? 因为 
复兴 科技 主要 核心 人 员 的 研究 背景 都 与 此 有 关 。 


ARENE: 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方 法 





D 第 一 节 西蒙 斯 与 复兴 科技 


复兴 科技 是 一 家 很 杰出 的 基金 公司 ， 代 表 人 物 就 是 西蒙 斯 ， 他 是 一 位 优秀 的 数 
学 家 ， 优 秀 在 哪里 呢 ? 他 在 20 年 的 时 间 里 创造 了 年 收益 率 36% 的 奇迹 ， 这 是 一 件 
非常 了 不 起 的 事情 。 国 内 凡是 搞 投 资 的 人 都 在 聊 巴 菲 特 ， 而 众所周知 ,巴菲特 的 年 
收益 率 是 26% 左右 。 

西蒙 斯 出 生 在 20 世纪 30 年 代 ，20 岁 的 时 候 从 MIT 数学 系 毕业 ， 后 来 到 伯克利 
读 了 数学 博士 ，1961 年 毕业 后 回 到 MIT 任教 ， 待 了 一 年 后 又 跳槽 到 哈佛 任教 。 可 能 
因为 父亲 是 商人 的 缘故 ， 他 也 非常 具有 企业 家 精神 。1964 年 的 时 候 ， 他 进入 美国 国 
防 研究 院 任 职 。 这 个 新 单位 听 起 来 就 很 神秘 ， 西 蒙 斯 在 那里 主要 研究 什么 呢 ? 就 是 
研究 怎么 破解 敌 方 的 密码 ， 怎 么 来 编码 使 别人 破译 不 出 来 。 

1966 年 底 到 1967 EH, 西蒙 斯 发 表 了 坚决 反对 越战 的 言论 。 当 记者 采访 他 
对 越战 怎么 看 时 ， 他 说 就 不 应 该 打 这 个 仗 ， 打 这 个 仗 就 是 错 的 。 当 时 越战 刚 开始 ， 

这 篇 访谈 一 经 刊登 ， 顿 时 引起 了 轩然大波 ， 是 因为 报道 中 特别 强调 了 军 中 有 人 反 
对 越战 。 当 国防 部 长 知道 是 西蒙 斯 说 的 之 后 ， EAE AST RFE fb FE ТГ. “我 被 
解雇 的 时 候 感觉 自己 特别 无 力 , ”他 说 , “我 当时 就 想 ， 如 果 你 是 老板 的 话 就 没 人 
能 解雇 你 了 。 

1967 年 ， 西 蒙 斯 应 邀 到 美国 大 学 石 溪 分 校 ， 也 就 是 著名 物理 学 家 杨 振 于 先生 曾 
工作 过 的 学 校 ， 做 数学 系 的 系 主 任 。 当 时 他 才 30 多 岁 ， 非 常年 轻 ， 在 此 期 间 他 潜心 
于 数学 研究 。 当 时 该 校 还 有 一 位 很 有 名 的 数学 教授 ， 就 是 后 来 回 到 南开 大 学 的 陈 省 
身 教授 ， 西 蒙 斯 与 他 一 起 发 现 了 数学 理论 里 著名 的 陈 - 西蒙 斯 理论 。 

陈 一 西 蒙 斯 理论 对 于 投资 领域 的 人 来 说 或 许 有 些 陌生 ,但 是 该 理论 对 其 他 学 
科 产 生 了 巨大 的 影响 。 在 20 世纪 80 年 代 中 期 普林斯顿 大 学 教授 Edward Witten 
发 现 了 该 理论 在 物理 学 方面 的 适用 性 ， 并 称 之 为 陈 - 西蒙 斯 场 论 。 现 在 陈 - 西蒙 





斯 理论 已 经 作为 一 种 重要 的 工具 广泛 应 用 于 物理 学 研究 的 很 多 方面 ， 包 括 弦 理论 
和 超 引力 黑洞 的 研究 。 一 位 从 普林斯顿 大 学 跳槽 到 麦肯锡 顾问 公司 的 数学 家 Den- 
nis McLaughlin 说 :“ 物 理学 家 们 每 天 都 能 依靠 陈 — 西蒙 斯 理论 发 现 新 的 研究 
方向 。 

此 后 的 十 年 里 ， 西 蒙 斯 获 了 不 少 的 奖 ， 其 中 最 高 荣誉 是 1976 年 美国 数学 学 会 的 
威 布 伦 奖 。 

尽管 他 在 数学 研究 领域 里 成 绩 突出 ,但 具有 创业 家 精神 的 西蒙 斯 很 快 厌倦 了 
单调 的 科研 生活 。1978 年 ， 西 蒙 斯 离开 石 溪 大 学 成 为 职业 投资 人 。 在 真正 成 立 复 
兴 科 技 的 1988 年 之 前 ， 他 也 办 过 一 些 实业 : 1961 年 他 曾 和 麻 省 理工 的 同学 投资 
过 一 个 哥伦比亚 地 砖 和 管道 公司 ; 在 伯克利 任教 的 时 候 ， 他 曾 投资 5000 美元 去 做 
婚礼 礼物 的 生意 。 这 些 或 许 成 功 或 许 失 败 的 投资 经 历 最 终 使 他 转 到 了 证 券 行业 的 
投资 领域 。 


及 第 二 节 复兴 科技 的 元 老 们 


除了 西蒙 斯 之 外 ， 复 兴 科 技 最 早 的 几 位 元 老 都 是 数学 家 。 

一 位 元 老 是 Leonard Baum， 他 是 一 位 很 优秀 的 数学 家 ， 曾 在 复兴 科技 参与 过 模 
型 研究 。Baum 是 西蒙 斯 在 国防 分 析 研 究 院 的 同事 ，Baum - Welsh 算法 的 发 明 者 之 
一 ， 该 算法 主要 是 用 来 解决 不 可 观察 变量 的 最 大 似 然 函 数 计算 的 问题 一 一 也 就 是 说 ， 
在 丢失 了 一 些 观察 值 或 者 变量 是 不 可 观察 的 情况 下 ， 应 该 怎么 来 处 理 。 这 个 算法 ， 
在 我 们 后 面谈 到 隐蔽 马尔 科 夫 链 的 时 候 还 会 谈 到 ， 它 在 语音 识别 、 生 物 和 应 用 统计 
中 也 是 很 重要 的 。 

第 二 位 元 老 是 James Ax。 复 兴 科 技 公司 的 前 身 是 Axcom 公司 ， 后 来 才 叫 现在 的 
复兴 科技 公司 ， 是 Ax 创建 的 。 西 蒙 斯 与 他 两 个 人 合伙 运营 的 时 候 ， 还 叫 Axcom。 这 
位 Ax 是 很 优秀 的 数学 家 ，1967 年 的 时 候 也 获得 美国 数学 学 会 在 数论 方面 的 奖 ， 个 
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性 非常 强 ， 结 果 造 成 两 个 人 合 不 来 。 

最 后 一 位 是 Henry Laufer， 他 也 是 非常 优秀 的 数学 家 ， 曾 任 普林斯顿 大 学 的 数学 
教授 ， 并 在 复兴 科技 中 一 直 担任 首席 研究 专家 的 职务 。 从 复兴 科技 退休 后 ， 他 在 石 
溪 大 学 创办 了 量化 投资 专业 。 


D 第 三 节 复兴 科技 中 的 主要 研究 方法 


隐蔽 马尔 科 夫 模型 (以 下 简称 “HMM”) 对 复兴 科技 很 重要 ， 因 为 从 复兴 科技 
主要 人 员 的 研究 背景 来 看 ， 他 们 最 早 应 该 是 用 这 个 模型 的 。 当 然 ， 他 们 自己 从 来 不 
会 承认 用 的 是 哪个 模型 ， 这 一 点 是 人 们 对 复兴 科技 公司 的 共识 。 

为 什么 这 样 说 ? 

这 先 要 从 复兴 科技 的 关键 人 物 谈 起 。 首 先 ， 鲍 尔 曼 (Leonard Baum) 是 著名 的 
Baum - Welsh 算法 的 创始 人 ， 复 兴 科 技 的 核心 创始 人 之 一 ， 前 面 已 谈 过 ; 另外 一 位 
是 伯乐 卡 普 (Elwyn Berlekamp) ， 复 兴 科 技 最 初 的 灵魂 人 物 ， 也 是 数学 教授 ， 是 统 
计 信 息 方 面 的 专家 。 他 曾 在 Ax 和 西蒙 斯 不 合 的 时 候 把 复兴 科技 全 部 买 了 下 来 ， 当 
然 包 括 Ax 和 西蒙 斯 两 个 人 的 全 部 股份 。 一 年 以 后 ,公司 业务 又 走 上 正轨 ,伯乐 卡 
普 将 公司 又 出 让 给 了 西蒙 斯 。 很 多 人 说 全 世界 最 傻 的 人 是 他 ， 但 是 ， 他 说 自己 很 开 
心 ， 乐 意 做 研究 。 他 现在 还 在 做 教授 ， 继 续 从 事 着 研究 工作 。 

另外 一 个 重要 事件 是 在 1993 年 ， 复 兴 科 技 花 重金 把 全 世界 顶级 的 HMM 专 
家 一 一 剑桥 大 学 数学 博士 帕 特 森 ( Nick Patterson) 聘请 来 公司 工作 。 如 果 复 兴 科 技 
不 用 HMM 的 话 ， 那 么 根本 没 必要 这 人 么 做 。 

从 算法 上 来 说 ，HMM 算法 可 以 用 在 语音 识别 和 机 器 翻译 上 ， 也 可 以 用 在 股市 投 
资 上 。 因 为 语音 识别 和 机 器 翻译 都 是 一 个 顺序 问题 ， 是 编码 的 问题 ， 股 市 波动 也 是 
一 个 升降 的 序列 问题 。 

此 外 ,复兴 科技 还 把 IBM 公司 Watson 实验 室 的 语音 识别 专家 布朗 ( Peter 
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Brown), 22 (Robert Mercer) ， 还 有 该 实验 室 进行 机 器 翻译 研究 的 主要 专家 全 部 
挖 过 来 了 。 


D 第 四 节 ”什么 是 HMM? 


下 面 ， 我 们 谈 谈 这 个 HMM 到 底 是 怎么 回 事 。 

众所周知 ， 股 价 是 可 以 观察 到 的 ,但 是 有 一 个 大 家 平时 不 太 注 意 的 问题 ， 相 同 
的 股价 在 不 同 的 状态 下 有 着 不 同 的 意义 。 比 如 说 3000 点 对 于 现在 (2100 点 左右 ) 
来 说 就 是 高 的 ， 但 是 3000 点 在 一 个 快速 上 升 的 牛市 里 面 可 能 又 是 低 的 ， 或 者 是 中 等 
的 。 所 以 ， 我 们 不 能 光 看 这 个 数字 ， 而 要 看 其 所 处 的 状态 ， 这 两 个 东西 要 结合 在 一 
起 看 。 但 是 ， 实 际 问题 是 股价 所 包含 的 状态 是 观察 不 到 的 。 我 们 用 什么 办 法 能 够 把 
它 从 股价 中 提炼 出 来 呢 ? 这 个 问题 很 关键 。 

大 家 都 清楚 什么 是 股价 ， 因 为 它 是 可 以 观察 的 ， 那么 有 人 可 能 就 会 问 ， 到 底 
什么 是 状态 ?简单 地 说 ， 股 市 有 两 种 状态 : 一 种 是 牛市 ， 一 种 是 能 市。 但 是 ， 这 
两 种 状态 是 不 可 观察 的 ， 这 就 需要 用 可 观察 到 的 数据 去 估计 这 个 状态 。 问 题 的 复 
杂 之 处 就 在 这 里 : 有 一 些 不 可 观察 的 变量 ， 或 者 说 有 一 些 丢失 的 变量 ， 我 们 怎么 
通过 可 观察 的 变量 得 到 这 些 不 可 观察 的 变量 值 ， 并 据 此 来 判断 我 们 所 看 到 股价 的 
真正 意义 。 

由 于 股市 的 状态 是 不 可 观察 的 ， 所 以 我 们 一 定 要 对 这 个 状态 怎么 变化 做 出 
一 些 假设 。 否 则 ， 不 可 观察 又 不 做 一 些 假设 ， 那 真是 摸 不 见 看 不 着 了 。 该 怎么 
假设 呢 ? 这 就 需要 用 到 转换 矩阵 。 换 句 话 说， 我们 先 做 以 下 的 假设 : 如 果 熊 市 到 
熊市 的 转移 概率 ， 即 今天 是 熊市 明天 还 是 熊市 的 概率 是 0.8， 那么 熊市 到 牛市 的 
概率 就 是 0.2; 如 果 和 牛市 到 牛市 的 概率 是 0.9, 那么 就 只 有 0.1 的 概率 明天 是 能 
市 。 就 是 因为 这 个 状态 变量 我 们 观察 不 到 ， 所 以 我 们 要 假设 它 服从 这 样 一 个 转换 
矩阵。 





HMM 三 要 素 : 


1. 可 观察 的 状态 依赖 变量 〈 股 价 ) : pi, Pay rs p, 
2. 不 可 观察 状态 变量 ( 熊 牛 ) : S, S, os S, 


3. 状态 转换 矩阵 : 








S, , = ЯЕ | 0.9 | 0.1 





S, = 0.2 0.8 


当然 ， 转 移 概率 矩阵 中 的 概率 是 0.9 还 是 0.1， 是 0.8 还 是 0.2， 要 通过 可 观察 
的 变量 来 估计 这 些 值 。 前 面 说 过 ， 不 可 观察 变量 是 需要 用 可 观察 变量 来 估计 的 。 同 
样 ， 这 个 转移 概率 的 值 也 是 需要 从 可 观察 变量 来 估计 的 。 要 通过 什么 方法 把 这 些 值 
估计 出 来 呢 ? Baum - Walsh 很 好 地 解决 了 这 个 问题 ， 主 要 是 用 Expectation - Maximi- 
zation, 简称 EM 算法 。 

因此 ，HMM 主要 的 思想 是 这 样 的 : 人们 所 看 到 的 股价 数据 隐 含 了 不 可 观察 的 状 
态 ， 这 个 状态 需要 我 们 首先 对 它 进行 相应 的 假设 ,然后 再 估计 出 来 。 


D 第 五 节 。 HMM 举例 


下 面 举例 说 明 观 察 值 和 状态 的 关系 。 假 设 户 是 某 股票 在 熊市 的 一 个 收益 分 布 ， 
也 就 是 说 ， 熊 市 的 时 候 股价 在 13 元 左右 ， 它 服从 户 这 个 分 布 ; р, 是 该 股票 在 牛市 
的 一 个 收益 分 布 ， 也 就 是 说 ， 牛 市 的 时 候 股价 在 28 元 左右 ， 它 就 服从 р, 这 个 分 布 。 
可 以 简写 为 : 
p, Cx) : 某 股票 在 熊市 的 收益 分 布 ; 
р(х) : 某 股票 在 牛市 的 收益 分 布 。 
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具体 观察 数据 如 图 1。 第 一 个 观察 到 的 数据 是 14. 2 元 ， 请 读者 来 判断 一 下 这 个 
数据 是 从 哪 一 个 分 布 产 生 的 ?我 们 可 以 认为 ， 第 一 个 观察 到 的 数据 14. 2 元 最 可 能 是 
Pi 分布 (RET) 产生 的 。 因 为 相对 于 ps 分布 (牛市 ) 分 布 而 言 , pi 分 布 (熊市 ) 
可 能 性 更 大 。 也 就 是 说 ， 这 个 数据 肯定 是 从 p, 和 p, 两 个 分 布 里 面 中 的 一 个 所 产生 
的 ， 但 在 这 两 个 分 布 里 面 ，14. 2 元 更 靠近 哪个 呢 ? 管 案 肯 定 是 靠近 这 个 p 分 布 。 换 
名 话说 ，14. 2 元 所 对 应 的 状态 最 为 可 能 是 熊市 。 

第 二 个 可 观察 到 的 数据 29. 4 元 更 靠近 р, 分 布 。 所 以 ， 看 到 第 一 股价 数据 14.2 
元 的 时 候 ， 就 会 觉得 这 可 能 处 在 熊市 的 状态 ; 看 到 第 二 个 股价 数据 29. 4 元 的 时 候 ， 
人 们 可 能 认为 是 处 在 牛市 的 状态 。 

当 观 察 到 第 三 个 股价 数据 8.9 元 的 时 候 ， 大 家 可 以 看 看 处 于 这 两 个 分 布 中 的 哪 
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一 个 分 布 ? 可 能 是 p,。 如 果 大 家 看 到 第 四 个 可 观察 的 股价 数据 13. 1 元 的 时 候 ， 也 可 
以 很 快 就 肯定 是 p, 分 布 所 产生 的 (熊市 状态 ) ， 因 为 它 更 可 能 发 生 。 那 么 ， 当 看 到 
第 五 个 可 观察 数据 24. 1 元 的 时 候 ， 这 个 数据 很 大 可 能 不 是 p, 分 布 所 产生 的 ， 说 明 
当时 状态 是 熊市 的 概率 很 小 ; 而 是 从 р, 分 布 中 产生 的 概率 是 很 大 的 ， 说 明 当 时 状态 
是 牛市 的 概率 很 大 。 

因此 ， 大 家 可 以 看 出 ， 平 时 人 们 所 观察 到 的 价格 ， 不 仅仅 是 简单 的 价格 ， 同 时 
在 它 的 背后 有 还 有 一 个 状态 在 决定 着 它 。 这 一 点 很 重要 ， 千 万 不 要 认为 股价 在 什么 
时 候 都 是 一 样 的 。 

一 碗 饭 可 能 在 吃 饱 的 时 候 对 于 你 来 说 是 多 了 ; 但 是 当 在 饥饿 的 时 候 ， 你 就 会 觉 
得 一 碗 根本 不 够 。 同 样 一 碗 饭 在 不 同 状 态 下 其 价值 完全 不 一 样 ， 股 价 也 是 同样 ， 处 
在 不 同 状态 下 意义 是 完全 不 一 样 的 ， 这 就 是 HMM 需要 解决 的 问题 。 


D 第 六 节 ”股价 收益 分 布 与 HMM 


如 果 上 面 的 例子 中 pn р 都 是 正 态 分 布 ， 当 然 也 可 以 假设 它们 是 很 多 种 其 他 类 
型 的 分 布 ， 还 可 以 用 非 参 的 办 法 来 解决 ， 这 些 都 没有 问题 。 为 了 简单 起 见 ， 我 们 这 
里 假设 其 是 正 态 分 布 。 那 么 ， 这 时 股价 收益 的 分 布 到 底 是 什么 样 的 情况 ， 是 不 是 符 
合 正 态 分 布 呢 ? 实际 上 股价 的 分 布 不 服从 正 态 分 布 ， 为 什么 呢 ? 从 图 2 中 可 以 看 出 ， 
正 态 分 布 是 一 个 铃 销 ， 一 个 标准 的 正 态 分 布 中 95% 的 概率 是 在 正 负 1.96 之 间 。 标 
准 正 态 分 布 ，-1 到 +1 之 间 出 现 的 概率 是 将 近 2/3 的 ; M -1.96 到 +1.96 出 现 的 
概率 是 95% 。 

但 是 ， 股 价 收益 实际 分 布 不 是 像 标准 正 态 分 布 这 么 好 ， 它 两 边 出 来 了 两 个 尾巴 ， 
即 所 谓 的 “ 肥 尾 ”"”"， 如 图 3 所 示 。 若 按照 标准 正 态 分 布 ， 在 左右 两 边 出 现 这 样 的 概 
率 几 乎 是 不 可 能 的 。 这 就 需要 我 们 用 三 个 分 布 的 混合 分 布 ， 而 不 是 用 一 个 简单 的 正 
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态 分 布 ， 来 描述 股价 收益 的 分 布 。 
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图 3 
从 图 3 中 我 们 知道 ， 股 价 收益 的 实际 分 布 会 出 现 “ 肥 尾 ” 一 一 左右 两 边 会 想起 
来 。 那 么 ， 这 种 情况 该 如 何 处 理 呢 ? 该 如 何 描述 这 样 一 个 混合 分 布 呢 ? 此 时 ， 我 们 
就 需要 用 到 三 个 分 布 ， 中 间 一 个 分 布 ， 两 边 各 一 个 分 布 ， 来 描述 股价 收益 的 实际 分 


布 情况 。 左 边 的 分 布 是 能 市 ; 中 间 的 分 布 是 盘整 ; 右边 的 分 布 是 牛市 。 这 样 ， 用 三 
个 分 布 组 成 混合 分 布 的 转移 概率 矩阵 是 一 个 3 阶 和 矩阵 ， 与 前 面 的 2 阶 转移 矩阵 一 样 ， 








牛市 


FT | 0. 05 | 0. 05 














能 市 
盘整 | 0.1 0.8 | 0.1 
牛市 0. 05 0. 05 0.9 


这 时 就 出 现 了 一 个 非常 重要 的 问题 : 我 们 怎么 把 这 样 一 个 股价 收益 的 分 布 拆 成 
三 个 分 布 ? 这 里 使 用 的 拆 分 办 法 就 是 用 Baum - Welsh 算法 。 使 用 该 算法 后 ， 我 们 就 
可 以 知道 这 三 个 分 布 的 均值 是 多 少 ， 方 差 是 多 少 ; 拆 成 的 三 个 分 布 有 多 少 比 例 可 能 
分 配 在 中 间 这 个 分 布 ， 有 多 少 比 例 是 分 配 在 右边 这 个 分 布 ， 有 多 少 比 例 是 分 配 在 左 
边 这 个 分 布 ; 以 及 三 个 分 布 之 间 的 转移 概率 矩阵 。 

一 般 来 说 ， 这 三 个 有 可 能 都 是 正 态 分 布 ; 也 有 可 能 都 是 是 泊 松 分 布 ; 也 有 可 能 
中 间 是 正 态 ， 两 边 是 泊 松 。 根 据 数值 算法 或 EM 算法 ,我 们 可 以 得 到 这 三 个 分 布 的 
均值 和 方差 ， 而 且 还 能 够 得 到 各 个 分 布 在 这 个 混合 分 布 的 比重 ; 更 重要 的 事情 是 ， 
我 们 还 能 够 得 到 转移 概率 矩阵 的 估计 值 。 

根据 这 些 转移 矩阵 的 估计 值 ， 我 们 可 以 算出 处 在 这 三 种 分 布 的 期 望 持续 期 。 这 
些 期 望 持 续 期 对 于 我 们 设计 策略 来 说 非常 重要 。 换 名 话说 ， 假 如 只 允许 做 多 ， 那 么 ， 
我 们 能 够 赚钱 的 部 分 只 有 右面 这 个 分 布 。 如 果 右 面 这 个 分 布 的 持续 期 是 四 期 ， 我 们 
要 花费 一 期 去 观察 它 ， 因 为 只 有 在 一 期 过 后 ， 我 们 才能 够 确认 它 处 在 这 个 分 布 。 当 
确认 某 股票 一 进入 右面 这 种 状态 ， 马 上 就 严 。 为 什么 呢 ? 因为 它 还 会 在 这 个 状态 持 
续 三 期 。 在 第 四 期 到 来 的 时 候 ， 不 管状 态 变 不 变 ， 我 们 就 要 减仓 。 所 以 ， 每 个 状态 
的 持续 期 很 重要 ， 它 是 策略 设计 中 很 关键 的 要 素 。 

大 家 在 2006 年 股市 上 升 的 时 候 很 开心 ， 主 要 是 因为 右边 这 个 分 布 ; 而 大 家 在 
2008 年 股市 大 跌 的 时 候 很 难受 ， 主 要 是 因为 左边 的 这 个 分 布 。 如 果 了 解 了 上 述 分 布 
的 期 望 持 续 期 ， 那 么 我 们 将 会 知道 : 处 在 这 两 个 分 布 的 时 间 大 概 有 多 长 ; 一 旦 进入 
到 这 个 状态 里 面 以 后 ， 还 能 待 多 久 ; 该 怎么 办 ， 是 加 仓 还 是 减仓 ? 
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DW HMM 与 交易 策略 设计 


实际 上 ， 人 们 看 到 的 只 是 股价 和 指数 点 位 。 但 是 ， 对 于 HMM 来 说 ， 看 到 的 
不 仅仅 是 这 样 的 数据 ， 还 可 以 从 股价 中 分 离 出 不 同 的 状态 : 是 处 在 熊市 状态 还 是 
牛市 状态 ; 是 处 在 状态 中 的 第 几 个 周期 。 假 如 状态 持续 期 是 四 期 ， 那 么 ， 现 在 是 
处 在 第 一 期 、 第 二 期 、 第 三 期 ， 还 是 第 四 期 ? 这 些 信 息 对 于 我 们 设计 投资 的 策略 
太 重 要 了 。 

根据 HMM 设计 策略 时 ， 会 遇 到 很 多 问题 。 比 如 说 ， 裁 出 来 的 三 个 分 布 都 很 接 
近 ， 均 值 也 很 接近 ， 这 时 候 该 怎么 办 ? 为 了 解决 稳定 性 问题 ， 可 以 取 三 个 的 中 间 值 ， 
采取 所 谓 的 均值 回归 的 办 法 ， 过 正 95% 的 临界 点 就 卖 ， 它 肯定 会 往 中 间 分 布 。 

上 面谈 的 是 第 一 个 问题 。 第 二 个 问题 ， 上 一 节 举 的 四 个 期 的 例子 无 论 如 何 都 要 
浪费 掉 一 期 去 观察 所 处 状态 ， 那 么 如 果 我 们 算出 来 的 持续 期 只 有 1. 6 怎么 办 ?持续 
期 不 到 两 期 ， 这 个 问题 该 如 何 处 理 ?” 这 是 一 个 很 头疼 的 问题 。 

第 三 个 问题 是 持续 期 取决 于 转移 概率 矩阵 ， 该 矩阵 的 平稳 性 该 如 何 检验 ? 如 何 
检验 这 些 估计 参数 到 底 是 不 是 稳定 的 ， 如 果 转 移 概 率 估计 量 不 稳定 ， 这 个 策略 的 设 
计 也 是 很 麻烦 的 。 

再 一 个 问题 就 是 当 数 据 量 大 的 时 候 HMM 的 参数 估计 计算 时 间 长 短 及 其 时 效 性 ， 
这 一 点 也 是 很 重要 的 。 如 果 计 算 时 间 很 长 ， 做 高 频 交 易 就 会 有 问题 ， 所 以 需要 权衡 。 
复兴 科技 是 基于 分 钟 或 者 秒 的 数据 在 做 交易 ， 为 什么 呢 ? 因为 EM 算法 有 很 重要 的 
一 个 特点 ， 如 果 说 我 们 都 用 低频 的 数据 ， 例 如 周 数据 或 者 月 数据 ， 这 样 裁 出 来 的 三 
个 分 布 就 很 容易 很 接近 ， 整 体 混合 分 布 也 比较 容易 接近 于 一 个 非 稳 态 的 正 态 分 布 ; 
如 果 我 们 用 秒 的 ， 或 者 是 分 钟 的 ， 拆 出 来 的 三 个 分 布 会 离 的 很 远 ， 很 容易 判断 ， 收 
益 的 机 会 就 多 ; 而 且 ， 这 三 个 分 布 不 仅 离 得 很 远 ， 每 个 分 布 的 持续 期 也 会 比较 固定 ， 
这 可 能 是 另 一 个 原因 。 








E € у Я S A ps E 
(| EEE: 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方法 


实际 上 ， 我 们 用 中 国 股市 的 周 数据 计算 出 来 的 持续 期 就 是 1.6。 那 么 ， 根 据 这 
个 特点 怎么 来 设计 策略 呢 ? 这 样 的 持续 周期 实在 太 短 了 ， 只 能 采用 接近 于 Larry Wil- 
liams 的 办 法 : 先 埋 伏 好 ， 等 突破 了 就 自动 买 人 。 


D 第 八 节 HF HMM 的 交易 策略 


本 节 设 计 一 个 基于 上 证 指数 的 一 个 非常 简单 的 交易 策略 ， 数 据 来 自 2006—2013 
年 每 周 的 上 证 指数 。 读 者 在 学 习 这 个 策略 的 时 候 一 定 要 注意 ， 不 要 简单 地 死 搬 硬 套 
到 实际 中 ， 和 否则 肯定 会 出 大 问题 。 基 于 上 证 指数 的 这 个 策略 是 什么 样 的 呢 ? 如 果 现 
在 的 股价 大 于 两 个 月 的 均 价 再 加 上 这 两 个 月 波动 的 0.8 fi, MRA. gU, XX 
是 一 个 突破 就 买 人 的 办 法 ， 这 里 用 的 突破 点 是 两 个 月 的 均 价 加 上 两 个 月 的 标准 差 的 
0. 8 倍 。 

图 4 是 基于 上 证 指数 2006 年 1 月 至 2013 4E 11 月 的 每 周 收益 和 上 述 策略 的 运行 
结果 。 

有 的 人 会 说 ， 这 个 策略 不 好 。 为 什么 不 好 呢 ? 图 中 大 盘 最 高 点 已 经 到 4.5 倍 这 
ET, № 2006 年 1000 多 点 到 2007 年 的 6000 多 点 增长 了 4.5 fi; 而 采用 这 个 策略 
才 赚 到 2 倍 。 

的 确 ， 在 2006—2008 年 这 个 策略 看 似 不 好 ， 明 显 收 益 比 大 盘 低 。 但是， 在 大 盘 
2008 年 快速 下 跌 的 时 候 ， 投 资 者 们 就 体会 到 了 这 个 策略 的 好 处 。 这 个 简单 的 策略 没 
像 上 证 指数 给 投资 者 们 这 么 大 的 惊喜 ， 同 样 ， 也 没有 给 他 们 这 么 大 的 失望 。2008 年 
后 这 个 策略 的 好 处 就 凸显 出 来 了 ， 波 动 比 上 证 指数 小 ， 在 后 面 股市 的 一 波 反 弹 中 ， 
这 个 策略 也 赚 到 了 钱 。 

尤其 从 2010 年 以 后 ， 这 个 策略 一 直 好 于 上 证 指数 的 表现 。 
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图 4 


假设 允许 做 空 ， 这 个 策略 会 是 怎样 的 呢 ? 改变 是 必需 的 ， 因 为 做 空 的 速度 快 一 
点 。 做 多 和 做 空 二 者 结合 ， 收 益 肯 定 要 比 只 做 多 这 个 结果 要 好 一 些 。 


D 第 九 节 ”交易 策略 的 评价 问题 


大 家 一 定 要 记 住 ， 评 价 一 个 交易 策略 好 坏 很 关键 、 很 重要 的 问题 就 是 ， 千 万 不 
要 只 看 回报 率 ， 一 定 要 看 三 个 数据 : 

第 一 个 数据 当然 是 回报 率 ， 它 是 很 重要 的 。 

第 二 个 非常 重要 的 数据 是 Sharpe - ratio。 众 所 周知 ，Sharpe - ratio 是 收益 除 以 风 
险 的 比值 ， 换 名 话说 ， 它 表示 冒 一 分 钱 的 风险 能 够 得 到 多 大 的 收益 。 这 个 比值 是 最 
最 重要 的 ， 希 望 大 家 在 具体 应 用 的 时 候 一 定 记 住 。 如 果 Sharpe - ratio 低 于 0.8. 
0.9， 这 样 的 策略 是 不 能 用 来 管理 大 资金 的 ， 否 则 会 带 来 很 多 很 多 的 麻烦 ， 比 如 说 最 
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大 回 撤 (MDD)。 上 一 节 提 到 的 HMM 策略 回报 率 是 2.6， 并 没有 比 上 证 指数 回报 率 
多 多 少 ， 尤 其 是 这 里 还 没有 考虑 到 交易 成 本 。 当 然 每 周 做 一 次 交易 成 本 不 一 定 很 高 ， 
但 如 果 做 高 频 的 话 ， 交 易 成 本 就 会 很 大 。 上 证 指数 的 Sharpe - ratio 是 0.3， 这 个 交 
易 策 略 的 是 1. 2， 二 者 差 三 倍 多 一 点 ， 说 明 这 个 策略 明显 好 于 上 证 指数 。 

第 三 个 重要 的 数据 就 是 最 大 回 撤 (MDD)。 表 2 是 上 证 指数 和 这 个 简单 的 HMM 
策略 的 结果 对 比 : 


X2 ”上 证 指数 和 HMM 策略 的 结果 对 比 


HMM 策略 上 证 指数 
回报 率 2. 607144 1. 622555 
Sharpe = ratio 1. 19993 0. 367541926 
MDD - 0. 26956 (10% ) -3. 22777 (70%) 


这 三 个 数据 当中 ，MDD 是 最 重要 的 。HMM 交易 策略 只 有 10% 的 MDD, mi ENE 
指数 则 达到 了 70% ， 二 者 相差 7 倍 。 所 以 ， 换 句 话 说， 如 果 说 你 能 够 忍受 和 上 证 指 
数 同样 比例 的 回 撤 ， 那 么 你 可 以 把 交易 杠杆 放大 七 倍 ， 现 在 的 股指 期 货 就 可 以 很 容 
易 地 做 到 这 一 点 。 

交易 杠杆 放大 七 倍 后 挣 不 挣 钱 呢 ? 当然 挣 钱 。 图 5 就 是 放大 七 倍 的 结果 ， 这 是 
很 吓人 的 。 如 果 放 大 七 倍 ， 这 个 策略 可 以 赚 到 一 百 多 倍 。 但 是 ， 为 什么 我 们 不 采取 
这 个 策略 呢 ? 读者 们 可 以 想象 一 下 ， 开 始 时 的 一 个 亿 ， 很 快 可 以 赚 到 100 个 亿 ， 这 
是 非常 令 人 激动 的 。 但是， 这 100 个 亿 可 能 在 某 个 时 间 点 会 亏 掉 60 多 个 亿 ， 这 种 亏 
损 是 否 是 投资 者 们 能 够 承受 得 了 的 ? 如 果 说 能 够 承受 ， 那 么 这 个 策略 是 很 好 的 。 

国外 机 构 评价 一 个 交易 策略 的 好 坏 时 ， 其 他 的 不 要 看 ， 只 看 MDD 和 Sharpe - 
ratio 这 两 个 最 主要 的 指标 数据 。 在 美国 ， 学 投资 主要 讲 风险 ， 不 讲 回报 。 可 见 ， 风 
险 在 金融 研究 和 实践 中 的 地 位 有 多 人 么 重要 ! 

对 于 这 个 60% 多 的 大 回 撤 ， 出 现 的 第 一 个 问题 是 ， 没 有 多 少 投资 者 的 心理 素质 
能 够 好 到 承受 得 了 。 第 二 个 问题 是 ， 一 旦 有 回 撤 ， 投 资 者 就 会 把 钱 撤 出 基金 ， 这 样 
整个 策略 就 无 法 继续 下 去 。 所 以 ， 基 金 经 理 一 定 要 跟 客 户 说 清楚 自己 策略 的 历史 最 
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大 回 撤 是 多 少 ， 问 客户 能 不 能 承受 这 种 回 撤 。 如 果 客 户 承 受 不 了 ， 就 可 以 把 杠杆 降 
低 一 下 ， 杠 杆 放大 后 的 回 撤 程 度 是 很 大 的 。 
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大 家 都 知道 ， 基 金 行业 最 需要 的 就 是 坚持 ， 能 坚持 下 来 成 为 “长 青 树 ” 是 很 不 


容易 的 。 通 过 杠杆 ， 僵 利 可 以 很 容易 从 2 倍 到 100 多 倍 ， 但 是 问题 是 ， 面 对 可 能 出 
现 的 这 种 60% 多 的 回 撤 ， 无 论 对 基金 经 理 自己 ， 还 是 作为 投资 者 的 客户 ， 在 心理 上 
都 是 不 可 能 接受 的 。 


下 面 ， 我 们 再 比较 一 下 Sharpe - ratio, HMM 策略 和 上 证 指数 二 者 只 差 了 3.26 


倍 ， 我 们 就 将 杠杆 设 定 为 3. 26 倍 。 在 这 种 情况 下 ，MDD 就 容易 接受 得 多 ， 而 它 
的 收益 是 16 倍 。 所 以 ， 今 后 大 家 一 定 不 要 只 谈 回 报 率 ， 这 没有 任何 的 意义 ， 重 要 
的 是 Sharpe - ratio 和 MDD。 图 6 是 这 个 简单 做 多 的 HMM 策略 放大 3.26 f hy 


结果 。 
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复兴 科技 : 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方法 
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图 6 


以 上 策略 只 是 基于 HMM 设计 的 一 个 简单 交易 策略 ， 大 家 可 以 在 这 个 基础 上 做 
得 更 加 深入 一 点 。 

另外 要 强调 的 是 ，Sharpe - ratio 也 有 它 的 问题 ， 这 牵涉 到 风险 衡量 。 一 般 而 言 ， 
Sharpe – ratio 用 方差 来 表示 风险 。 所 以 ， 要 使 风险 最 小 ， 就 必须 使 得 整个 方差 缩小 ， 
这 样 同 时 把 正 向 和 负 向 的 两 个 肥 尾 都 往 里 靠 。 但 是 ， 如 果 我 们 只 做 多 的 话 ， 就 会 是 
希望 正 向 的 肥 尾 越 大 越 好 ， 负 的 这 边 越 小 越 好 。 因 此 ， 有 人 就 提出 来 单 边 风险 问题 ， 
例如 ，a - 风险 和 一 致 性 风险 。 

我 们 这 里 的 数据 用 的 是 周 数据 。 当 然 ， 可 以 用 分 钟 、 秒 的 数据 ; 考虑 更 多 的 因 
素 ， 交 易 成 本 和 价格 冲击 问题 的 风险 。 高 频数 据 拆 开 所 得 到 的 转移 矩阵 稳定 性 会 更 
好 一 点 。 这 样 ， 策 略 结 果 也 会 更 好 一 点 ， 就 是 这 样 的 道理 。 很 多 人 都 说 ， 复 兴 科 技 
实际 上 每 天 做 数 千 笔 的 交易 ， 前 一 秒 钟 上 涨 、 下 一 秒 钟 上 涨 的 概率 比 明 天 上 涨 概率 
的 稳定 性 可 能 会 更 高 。 
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Dstt 科技 与 投资 


上 面 只 是 举 了 一 个 简单 的 基于 HMM 设计 交易 策略 的 例子 ， 大 家 就 会 发 现 HMM 
的 计算 量 很 大 。 从 这 里 我 们 可 以 看 出 ， 投 资 是 科学 和 技术 的 结晶 ， 是 真正 的 高 科技 。 

量化 投资 主要 包含 三 个 方面 : 第 一 是 理论 ， 包 括 金融 理论 、 经 济 理论 ， 还 有 其 
他 方面 的 一 些 理论 ; 第 二 就 是 方法 ， 比 如 说 像 金融 计量 方法 、 计 算 金 融 的 方法 、 统 
计 方 法 、 单 尾 风险 的 衡量 方法 、 小 波 分 析 、HMM 等 ;最 后 一 个 就 是 技术 ， 有 人 说 ， 
即使 西蒙 斯 告诉 你 算法 ， 真 正 能 够 在 技术 上 实现 的 也 没有 几 个 。 量 化 投资 的 技术 牵 
涉 到 哪些 ? 常见 的 有 API, WA FIX， 这 些 接口 怎么 做 ; Database 怎么 设计 ; 研究 的 
时 候 需 要 用 到 Matlab, R 等 等 。 






方法 (Method ) : 
理论 (Theory ) : =22=22225055-25252 







现代 金融 理论 
现代 经 济 理论 











Matlab/R 


图 7 


除 技术 之 外 ， 还 要 找到 比较 好 的 理论 和 方法 ， 这 三 者 的 有 机 结合 ， 才 是 真正 的 
量化 投资 。 专 做 理论 的 人 可 能 认为 数学 是 量化 ; 专 做 技术 的 人 认为 计算 机 化 是 量化 ; 


解密 复兴 科技 : 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方 法 





其 实 ， 以 上 的 说 法 都 不 对 ， 真 正 的 量化 是 上 面 三 个 方面 的 综合 。 

同时 ， 真 正 的 量化 投资 应 该 尽量 减少 人 工 干 预 ， 全 部 由 计算 机 来 做 。 在 100 次 
的 交易 中 ， 人 工 干预 最 多 只 有 3 到 5 次 。 真 正 的 量化 投资 过 程 是 研究 人 员 根 据 历史 
的 数据 和 科学 的 方法 ， 找 到 一 些 规律 性 的 东西 ， 形 成 相应 的 投资 方案 ， 写 出 程序 ， 
并 通过 计算 机 自动 执行 。 


D 第 十 一 节 ”复兴 科技 的 核心 竞争 力 


复兴 科技 早期 在 投资 策略 方面 的 技术 ， 很 可 能 运用 的 就 是 上 述 突破 性 的 策略 。 
通过 HMM 把 股票 收益 分 拆 成 三 个 分 布 以 后 ， 作 者 发 现 美 国 的 数据 和 中 国 的 数据 一 
样 ， 持 续 期 可 能 只 有 1.5 ~1.6 期 。 这 样 ， 就 需要 预先 把 单 埋 好 ， 突 破 就 买 。 由 于 不 
可 能 来 回 突破 太 多 次 ， 所 以 ， 每 次 买卖 的 量 是 有 容量 限制 的 。 

复兴 科技 真正 的 核心 竞争 力 在 哪里 呢 ? 它 的 主要 竞争 力 来 源 于 对 数学 模型 本 身 
的 深刻 理解 。 比 如 ， 世 界 上 真正 理解 HMM 的 人 有 多 少 ? 理解 后 ， 能 够 把 它 用 算法 
实现 出 来 的 有 多 少 人 ? HMM 有 很 多 假设 ， 它 的 稳定 性 怎么 样 ? 这 些 估计 值 在 多 长 时 
间 里 面 是 稳定 的 ?如果 这 些 估计 值 不 稳定 ， 策 略 是 没有 用 的 。 复 兴 科技 的 顶级 HMM 
专家 一 定 有 一 套 办 法 来 判断 所 得 到 的 参数 值 是 否 稳定 ， 拆 出 来 的 分 布 是 否 稳定 ， 他 
们 在 这 些 方面 有 自己 的 独到 之 处 。 

复兴 科技 的 交易 品种 很 多 ， 同 时 对 上 万 个 合约 、 个 股 和 指数 进行 交易 。 所 以 ， 
这 就 是 为 什么 复兴 科技 的 计算 机 技术 很 厉害 的 原因 ， 他 们 整个 公司 的 运营 全 靠 计算 
机 ， 主 要 资产 也 都 是 计算 机 ， 没 有 其 他 的 固定 资产 。 同 时 ， 这 也 说 明 复兴 科技 公司 
的 金融 计算 量 是 巨大 的 。 

最 后 ， 我 们 应 当 认 识 到 ， 对 于 任何 复杂 系统 问题 ， 都 应 分 为 两 个 步骤 来 解决 : 
首先 是 找到 解决 问题 的 方法 ; 其 次 ， 在 此 基础 上 ， 对 解决 办 法 进行 简化 和 优化 。 任 
何方 法 过 度 复杂 的 话 ， 一 定 会 在 实际 应 用 中 出 现 各 种 各 样 的 问题 。 实 际 上 ， 复 兴 科 
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技 采用 的 不 应 该 是 很 复杂 的 办 法 ， 应 该 是 一 些 相对 简单 的 办 法 。 当 一 个 解决 问题 的 
办 法 出 现 了 以 后 ， 紧 跟着 的 问题 是 有 没有 更 好 、 更 简化 的 办 法 。 

我 们 上 面 举 的 交易 策略 例子 ， 只 是 复兴 科技 很 多 交易 策略 中 的 一 个 。 复 兴 科 技 
真正 的 核心 在 于 基于 数学 模型 及 其 计算 结果 来 进行 相应 的 交易 策略 设计 。 比 如 ， 上 
面 的 例子 中 ， 就 是 将 HMM 的 计算 结果 转换 成 Larry Williams 的 突破 策略 。 当 股价 突 
破 的 时 候 ， 通 过 HMM 方法 做 到 心中 有 数 : 突破 后 还 剩 几 期 ， 还 有 多 长 时 间 去 加 仓 
或 者 减仓 。 

接 下 来 ， 我 们 首先 介绍 马尔 可 夫 链 的 相关 基础 知识 。 





基础 知识 





ERES 
极 大 似 然 估 计 法 简介 


极 大 似 然 估计 法 (Maximum Likelihood Estimation Method) 的 概念 主要 是 基于 如 下 
事实 : 不 同 的 统计 总 体会 产生 出 不 同 的 样本 ,对 于 某 一 特定 的 样本 ,观察 者 很 可 能 并 
不 知道 产生 这 一 样本 的 确切 的 总 体 分布 ， 但 是 该 样本 来 自 一 些 形式 总 体 的 可 能 性 要 比 
来 自 另 一 些 的 可 能 性 大 ， 即 一 些 总 体 比 另 一 些 总 体 更 容易 产生 出 我 们 所 观察 到 的 样本 。 
举例 来 说 ， 假 设 我 们 抽取 到 了 一 个 如 图 1 -1 所 示 的 样本 (x ,x,,…,xs) ， 并 且 我 们 知 
道 这 一 样本 来 自 一 个 正 态 总 体 ， 同 时 假设 我 们 也 知道 这 个 正 态 总 体 的 方差 ， 但 却 不 知 
该 分 布 的 期 望 。 假 定 这 8 个 样本 观察 值 不 是 来 自 A 分 布 就 是 来 自 B 分 布 ， 那 么 很 明 
显 ， 如 果 产 生 样 本 的 真正 分 布 是 B， 那 么 我 们 观察 到 xx ,x,,… ,xs 这 8 个 样本 点 的 概率 
是 非常 小 的 。 相 反 ， 如 果真 正 的 总 体 分 布 是 A， 那 么 我 们 获得 上 述 样本 的 可 能 性 会 显 
著 增 大 。 很 显然 ， 我 们 愿意 接受 A 为 真实 的 总 体 分 布 ， 因 为 A tL B 更 可 能 产生 出 我 们 
获得 的 样本 观察 值 。 在 某 种 意义 上 ， 是 样本 “ 替 ” 我 们 “选择 ”了 总 体 分 布 A。 通 常 
所 说 的 “让 数据 说 话 ”(let data talk) 就 是 这 个 道理 。 


p 
分 布 B 


分 布 4 


Хе My X XXX Xy X, X 
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SMA. 基于 隐蔽 马尔 科 夫 模 型 的 时 序 分 析 方法 


假定 现在 要 根据 从 总 体 上 中 抽取 到 的 样本 (x ,…,x,) ， 对 总 体 分 布 中 的 未 知 数 
0 进行 估计 。 极 大 似 然 法 选择 使 观察 结果 即 样本 (x, ,… ,x,) 出 现 的 概率 最 大 的 0 (Е 
为 6 的 估计 值 。 对 于 离散 型 随机 变量 ， 就 是 要 选择 使 P(x) POS )…P(x,) 最 大 的 
9 ; 而 对 于 连续 型 随机 变量 ， 就 是 要 选择 使 p(x )p(z)…9e(x,) 最 大 的 0 。 对 于 连 
续 型 随机 变量 , (x; ) 表示 随机 变量 在 x*; 附近 取 值 的 概率 大 小 ， 因 而 相当 于 离散 型 随 
机 变量 中 的 P(x;) o 

下 面 ， 我 们 用 数学 语言 对 上 述 思 想 进行 说 明 。 

设 为 连续 型 随机 变量 ,， 它 的 分 布 函数 是 (x;9) ,分 布 密度 是 p(x;0) ， 其 中 
9 是 未 知 参数 。 由 于 抽取 样本 的 独立 性 ， 则 样本 (x, ,… ,x, ) 的 联合 分 布 密度 是 : 


L(x,,5,2,50) = [Jelo 

由 于 每 个 取 定 的 样本 值 x ,…,x, 是 常数 ， 所 以 上 可 看 成 参数 9 的 函数 。 我 们 把 L 
称 为 样本 的 似 然 函 数 。 若 & 为 离散 型 随机 变量 ， 有 概率 函数 P(& = x.) = P(xi;6) , 
MIRE LOr лө) = [TPGUO 。 

ESEE] 如 果 L(x,,x,,…,x,;0) 在 9 处 取 最 大 值 ， 则 称 9 是 9 的 极 大 似 然 
估计 。 

为 了 求 得 8 的 极 大 似 然 估 计 ， 我 们 必须 使 二 达到 最 大 值 ， 并 且 把 此 时 的 0 作为 8 
的 估计 量 。 由 于 工 与 InL 同 时 达到 最 大 值 ， 所 以 我 们 只 需求 InL 的 最 大 值 点 即 可 ， 这 
样 往往 会 给 计算 带 来 极 大 的 方便 。 

HF (Ва) 是 参数 9 的 函数 ， 根 据 微 积分 中 的 拉 格 朗 日 定理 , InL 的 最 大 值 


应 在 InL 对 ө 的 一 阶 导数 等 于 0 时 取 到 。 因 而 ， 考 虑 方程 PE = 0 ， 这 个 方程 称 为 


似 然 方程 ， 容 易 看 出 ， 我 们 所 要 求 的 Ө 就 是 这 个 似 然 方 程 中 Ө 的 解 。 
下 面 的 两 个 例子 可 以 帮助 读者 进一步 了 解 极 大 似 然 法 。 
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а 1) 


[011-1] 已 知 随 机 变量 的 分 布 为 : 
1 `= 
—e ° x > 0)0 > 0) 
£ ~ ф(х;,0) = 0 
0 KE 
41,35 ,77,X, 是 去 的 一 组 观察 值 ， 求 8 的 极 大 似 然 估计 。 
构造 似 然 函数 


L(x; ,*::,x,50) = e z = 1 е Xs 


两 边 取 对 数 ， 得 : lnL =- ning - PD 
izl 





E w dnL п 1х 
对 0 求 导 ， 得: д = + 
š dlnL n 1 < 
J Sk 旦 .一 一 二 一 一 十 一 i 
解 似 然 方 程 : do Ө + РХ, 0 


可 得 :日 = У = 5,020 MMAR. 
1 


[811-2] 已 知 & 服 从 正 态 分 布 NUL,o ) vx, x. nux, 为 专 的 一 组 样本 观察 值 ， 
用 极 大 似 然 法 估计 人 ,oa” 的 值 。 


> 1 _быти)2 1 d 1 $ Lẹ ÄR 
L = ت‎ 202 = 一 一 . a2 52 У, (ж-д) 
doque ш ые 
Ink = "gl - Jag? - y (x, - ш)" 
2 2m 2 20? izl š F 


由 于 有 两 个 参数 ， 这 里 应 分 别 将 工 对 几 和 oo 求 偏 导数 。 





ok О i=l 

olnL n i ox 2 
三 :一 .= 二 一 十- 一 二 Em 

д а? 2g? 202 5, Ge 


这 里 要 解 如 下 的 似 然 方程 组 


(| ERENER: жашы донник 


解 得 : 


通过 以 上 例子 ， 我 们 知道 : 
1. 当 不 只 有 一 个 总 体 分 布 参数 需要 估计 时 ， 应 将 二 分 别 对 各 个 不 同 的 参数 求 仿 
导 ， 然 后 解 一 个 似 然 方程 组 。 


n 


2. 用 极 大 似 然 法 求 出 的 总 体 方差 的 估计 量 o LY (а, 3? ， 在 数理 统计 


H, ftt LY, (x, - Жс 的 无 偏 估计 量 ,” = (а - 8)? жо? 


的 无 偏 估计 量 。 事 实 上 ， 用 极 大 似 然 法 对 方差 进行 估计 所 得 到 的 估计 量 往往 都 是 有 
偏 的 ， 这 一 点 在 以 后 用 极 大 似 然 法 对 线性 回归 模型 进行 估计 时 会 再 次 说 明 。 


D 第 一 节 线性 模型 的 极 大 似 然 估 计量 


我 们 以 简单 的 线性 回归 模型 为 基础 ， 求 解 以 下 线性 回归 模型 的 极 大 似 然 估 计量 : 

y, = В, + Box, + u, (1.1) 

假设 u, ~ N(0,07) ‚у, ~ N(B, +B,x,,o2) ， 因 此 该 正 态 分 布 的 概率 密度 函数 由 
FB: 


1 1 (y, -Bı = Bxx,)° 
exp( 一 2 = ) 


o /2т 
HF y,(t = 1,2,…,7) 是 独立 分 布 的 ， 所 以 ， 所 有 y, 的 联合 概率 密度 函数 可 以 








Ку, | В + В,х,,а?) = (1.2) 
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表示 为 单个 概率 密度 函数 的 乘积 : 
firi 29° YT | Xi ‚^2 2 Xp B, ‚В o?) 


= f(y, | Bi + Вх, ,0 )fCy, | B, + Вх, ,0°) fl yr | В, + В,хъ,0?) 


= Прота вао?) (1.3) 
该 表达 式 中 第 一 个 等 号 左边 被 称 为 联合 密度 函数 ， 右 边 被 称 作 边际 密度 的 乘积 。 
基本 的 概率 知识 告诉 我 们 ， 该 结果 成 立 的 前 提 是 y 值 具有 独立 性 。 对 于 三 个 独立 的 
事件 A、B、C， 其 同时 发 生发 概率 是 : A 发 生 的 概率 乘 以 B 发 生 的 概率 再 乘 以 С 发 
生 的 概率 。 式 1.3 表示 得 到 所 有 y 值 的 实际 概率 ， 将 每 个 式 1. 2 中 的 y, 值 代入 式 
1.3 ， 并 利用 ， 
Ae"? х Де) x ++ x Ae = AT (еї x e? x хет) = Ае ттт) 
得 到 如 下 结果 : 


fin Vast أ‎ Xi X571 Xp, By „B2 ‚а?) 


1 yy (у, -Bı - Bx,)” 
exp( - 2 o ) 


这 是 所 有 在 给 定 ， Bi, В, Alo” 情况 下 y, еа жЕ, Jih Y 表示 Y. 
而 ， 实 际 中 发 生 的 情况 与 上 述 过 程 相反 ， 即 给 出 x My, BEEG, В, 和 0。 
以 上 这 种 情况 中 的 /( - ) EDDY DEBRA, IE LFE, B,, o°) 。 





2 1 1 > (у, – В, - В,х,)? 
LF(B, ,В,, = === ^x = 2 
(Bi Bs ) EN T3 = 


极 大 似 然 估计 的 原理 是 要 是 选择 参数 B, Bo, o° 的 取 值 ， 使 得 极 大 似 然 函 数 LF 
的 概率 达到 最 大 值 。 

XY ЕЗИ РАЖ f(x) 而 言 , max[f(x) ] = max[1nf(x) ] 。 由 于 对 数 函 数 是 单调 函 
Ж, FEX LLF = lnLF ， 所 以 LF 和 LLF 在 同一 点 达到 最 大 ， 即 在 这 两 种 情况 下 参数 
的 最 优 值 是 一 样 的 。 这 样 ， 我 们 就 可 以 对 极 大 似 然 函数 取 对 数 ， 将 其 转化 为 LLF K 
数 。 由 原 LF 取 对 数 可 以 得 到 : 





) 


gu 
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$7 - В, - B,x,)” 


2 
o 





T 1 
ШЕ = - Ting - —In(2z) - — Y, 


为 了 使 o^ 作为 一 个 整体 出 现在 方程 中 ， 我 们 将 上 式 中 的 第 一 部 分 作 了 简单 的 转 
化 ， 可 得 : 
Cr -Bi - Вх,)? 


mud tea? ` T. ic ES 
ШЕ =- Z lno? - FIn(2m) -> Y, - 


BF 54а) S +, 所 以 对 上 式 中 的 B,，B; ,cz? 分 别 求 一 阶 导数 得 到 ; 


2 - - 
HA, = у BB RN а, йы (1.4) 





ШЕ _ 1 y 2(y, - B, = Вок), 


ap, 2 = (1.5) 


oUF — Tl1,1 +. (7-8 -Ba 
до? i 2 а? + 2 di а“ 
45k 1.4—1.6 MEA O, ЖН, , B, o^ 来 表示 对 相关 参数 的 极 大 似 然 估计 
Ht, Hist 1.4 得 : 


(1.6) 


Y (y, - B, - Bxx,) = 0 
Уу, - Уд, – Baz, = 0 
Y y, - TB, -B У х, = 0 
+ У,у, -Å - т Xs an 
HTIYEn-$sopXEsci. BDE A JE, UB, 的 估计 量 为 : 
B = y - Bx (1.7) 
HK 1.5 得 : 
È (y, - Bi - Eix)x, = 0 
Уух -B Ух, - B, Dx = 0 
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B Ys = Y»xs-G-RÀO Ys 
В, > x = S yt - Txy + В, Тҳ? 


B.( > = Tx’) = > ух, » Txy 


. У ух, = Тху 
bv oom (1.8) 
HK 1. 6 18. 
T 1 E А 2 
57 = E > (у; = By = B,x,) 


o° = + > y, - f - В,х,)? 
注意 在 上 式 等 式 右边 表示 的 是 残 差 〈 即 用 实际 值 减 去 拟 合 值得 到 ) ， 因 此 : 
a9 1 “2 
o =з 2, и, (1.9) 


这 些 公式 与 OLS 估计 相 比 如 何 呢 ? 由 于 式 1.7 和 式 1.8 5j OLS 估计 是 完全 相同 
的 ， 所 以 极 大 似 然 估计 和 OLS 佑 计 将 得 到 相同 的 截 距 和 和 斜率 系数 。 然 而 ， 式 1.9 中 
对 o^ 的 估计 与 OLS 估计 是 不 同 的 。 


D 第 二 节 极 大 似 然 估计 法 的 几 个 重点 问题 


通过 上 面 的 介绍 ， 我 们 知道 极 大 似 然 估计 是 一 种 统计 方法 ， 用 它 和 样本 数据 可 
以 得 到 相关 密度 函数 的 参数 。 比 起 只 使 用 二 阶 距 的 最 小 二 乘法 而 言 ， 极 大 似 然 估 计 
法 整合 了 模型 中 的 所 有 信息 。 由 于 后 面 很 多 章节 的 参数 估计 在 很 大 程度 上 依赖 于 极 
大 似 然 估 计 法 ， 所 以 ,我 们 下 面 主要 讨论 极 大 似 然 估计 法 在 实际 应 用 中 所 遇 到 重点 
问题 。 
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一 、 极 大 似 然 估 计 和 协 方 差 矩 阵 


在 计量 经 济 学 中 ， 我 们 通常 会 已 知 向 量 yir = (yi uer). UTE 
据 ， 但 不 知道 相关 统计 模型 中 的 参数 向 量 9 。 在 这 种 情况 下 ， 极 大 似 然 函数 可 以 
写 为 : 

L = (0l yir) 

从 上 式 可 以 看 出 ， 不 同 的 Ө 值 会 导致 不 同 的 似 然 估计 函数 值 。 我 们 在 前 面 说 过 ， 
参数 的 极 大 似 然 估 计量 ， 可 以 通过 对 似 然 函数 取 自 然 对 数 并 求 其 最 大 值得 到 : 

дм. = argmaxlnL(6 ууу) 

其 中 ，h 表示 对 似 然 函 数 取 自然 对 数值 。 

解 上 述 对 数 似 然 函 数 最 大 化 问题 ， 不 仅 可 以 使 我 们 得 到 参数 的 极 大 似 然 估 计 
Өм, 还 可 以 直接 估计 该 函数 的 渐进 协 方差 矩阵 Cov( Ou) 。 对 该 似 然 函数 求 二 阶 导数 
后 的 期 望 值 ， 即 为 信息 和 矩阵 (0): 


2 
(Ө) FEN E|? اا‎ 


言 息 矩 阵 (O) 汇总 了 样本 中 的 主要 信息 量 。 此 信息 和 矩阵 的 逆 为 我 们 提供 了 协 方 
差 矩阵 的 无 偏 估计 0 的 下 限 值 ， 该 式 子 被 称 作 Cramer - Rao 不 等 式 : 
Cov(@) -1(0) ' >0 
另外 ， 也 可 以 证 明 ， 该 极 大 似 然 估计 量 0, 的 渐进 分 布 为 正 态 分 布 : 
/T( Om, - 8) > №0, (Н) ^) 


1 ànL(6l y.) = .,. 1 
"T ap о оо imo) 





上 面 的 公式 为 我 们 提供 了 如 何 通过 对 数 似 然 函数 的 二 阶 导数 ,来 对 gw 协 方差 
矩阵 进行 估计 的 方法 : 


Cov(8,) = | 


8^InL(0l yir) I 
| 3000" o= Ou, 
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二 、 参 数 约束 


极 大 似 然 估计 值 bw 可 以 通过 使 对 数 似 然 方程 等 于 0 计算 得 到 : 


ƏlnL(@0|yi.r) z 
00 


大 多 数 情况 下 ， 没 有 办 法 得 到 上 面 方程 的 解析 解 。 因 此 ， 必 须 使 用 非 线性 的 数 
值 算 法 求 最 大 化 问题 : 给 定 最 初 的 参数 估计 e ， 新 的 估计 值 9 可 以 通过 关于 07 
的 对 数 似 然 方程 一 阶 偏 导 求 得 ; 新 的 极 大 似 然 估计 值 会 大 于 原来 的 估计 值 ; 不 断 重 
复 这 个 过 程 直 到 参数 估计 值 收敛 。 这 样 ， 我 们 便 可 以 得 到 上 面 这 个 方程 的 最 优 解 。 
需要 指出 的 是 ， 在 某 些 情况 下 ， 最 优 解 不 是 唯一 的 。 本 书后 面 的 一 些 章节 会 详细 介 
绍 该 数值 算法 。 

在 无 约束 参数 的 极 大 似 然 函数 求 极 值 的 时 候 ， 计 算 机 会 从 负 无 穷 到 正 无 穷 的 参 
数 空间 中 搜索 。 但 是 实际 情况 是 ， 一 些 参数 可 能 需要 被 约束 在 一 定 的 区 间 范 围 之 内 。 
PAU, WE 9 中 的 一 个 参数 表示 概率 p ， 那 么 它 的 约束 条 件 是 0 < p <1。 一 般 而 言 ， 
这 样 的 约束 可 以 表示 为 一 个 无 约束 变量 y 的 转化 形式 : 

0 = g(v) 


0 


其 中 , g(*) 是 连续 函数 。 
对 数 似 然 方程 将 写成 : 
InL(61y,,) = InL(g(j) | yr) nL | yur) 
这 样 ， 就 可 以 用 未 被 约束 的 数值 最 优 条 件 求解 。 
下 面 是 我 们 经 常 遇 到 的 三 种 情况 : 
1. 如 果 9, 是 6 的 第 j 个 元 素 ， 代 表 一 个 方差 ,那么 9 > 0 。 我 们 利用 以 下 转化 
形式 : 
0, = vj MH Ө, = exp(y,) 
2. Ш Ө, 表示 一 个 概率 ， 那 么 约束 条 件 为 :0 «0, < 1 ， 转 化 形式 则 是 : 
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=Ж%, 


e NEM 
| 1+ exp(y;!) ' 


3. 如 果 b 表示 一 个 4R(1) 模型 中 的 自 回 归 参 数 ， 那 么 它 的 约束 条 件 是 : - 1 < 
Ш, < 1 ， 相 应 的 转化 式 为 : 
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D 第 一 节 统计 学 历史 发 展 简介 


统计 学 自从 诞生 以 后 大 致 沿 着 两 条 主线 展开 。 一 条 主线 是 概率 论 ， 以 Blaise 
Pascal (1623—1662) 和 Pierre Fermat (1601—1665) 为 先驱 ， 最 初 用 来 解决 计算 赌 
博 中 的 期 望 值 和 不 确定 性 问题 。 此 后 概率 论 从 数学 的 角度 得 到 完善 ，Christian Huy- 
gens (1629 一 1695 ) James Bernoulli (1654—1705) , Pierre — Simon Laplace (1749— 
1827) 等 都 做 出 了 巨大 的 贡献 。 另 外 ， 概 率 论 从 逻辑 角度 也 得 到 了 发 展 ，Thomas 
Bayes (1701—1761) , George Boole (1815—1864) 和 John Venn (1834—1923) 对 这 
一 领域 的 研究 贡献 很 大 。 经 过 不 断 发 展 ， 概 率 论 成 为 科学 史上 一 个 重要 的 里 程 碑 。 
Ronald Aylmer Fisher (1890—1962) 认为 ， 古 希腊 和 伊斯兰 数学 家 在 概率 方面 所 知 
其 少 ， 甚 至 也 有 人 认为 人 类 的 大 脑 不 能 够 解决 概率 方面 的 问题 。 概 率 论 脱胎 于 数学 
理论 ， 并 首次 能 够 将 不 确定 事件 给 予 严密 的 表述 。 同 时 ， 概 率 论 作为 一 种 演绎 研究 
方法 ， 擅 长 以 公理 为 基础 ， 以 假设 为 条 件 来 得 到 事件 发 生 概 率 方面 的 判断 和 推论 ， 
从 而 排除 了 有 具体 观测 值 的 影响 ， 所 以 只 能 成 为 数学 研究 的 一 个 分 支 。 在 这 之 后 ， 概 
率 论 孕 育 了 统计 理论 ， 以 1763 年 Thomas Bayes 论文 发 表 为 标志 ， 现 代 统 计 学 正式 诞 
生 ， 并 被 Pierre - Simon Laplace 发 展 完善 。 所 以 ， 第 一 条 主线 是 指 在 概率 论 的 基础 
上 产生 的 统计 学 。 

另 一 条 主线 是 几乎 与 之 平行 发 展 的 误差 理论 。 与 概率 论 的 主线 不 同 ， 该 理论 的 
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重点 不 在 于 计算 概率 和 不 确定 性 的 大 小 ， 而 在 于 总 结 天 文学 和 测量 学 中 的 观测 数据 。 
Carl Friedrich Gauss (1777—1855) 是 这 个 领域 的 主要 贡献 者 ， 尤 其 是 因为 他 提出 了 
简单 实用 的 估计 方法 ， 即 最 小 二 乘 原理 。 误 差 理论 发 展 的 重要 条 件 就 是 要 有 丰富 的 
数据 。Ronald Fisher 就 曾 指 出 ， 从 现代 统计 诞生 到 19 世纪 末 ，Francis Galton 
(1822—1911) 起 到 关键 作用 。 作 为 一 个 对 数据 非常 痴迷 的 数据 搜集 者 和 研究 者 ， 
Francis Galton 坚持 认为 定量 和 统计 方法 在 解决 不 确定 性 问题 中 是 非常 有 力 的 工具 。 

在 这 之 后 ， 统 计 学 的 发 展 依然 依赖 于 数据 丰富 的 研究 环境 。 这 也 就 是 为 什么 统 
计 学 被 广泛 应 用 于 农业 科学 、 医 学 和 生物 科学 等 领域 ， 在 该 方向 的 研究 中 Ronald 
Fisher (1890 一 1962) 做 出 了 很 大 的 贡献 。 后 来 ， 统 计 学 又 被 应 用 于 诸多 领域 ， 包 括 
质量 控制 、 军 事 、 工 程 、 心 理学 、 商 业经 济 、 公 共 政 策 和 经 济 政策 等 等 。 而 最 令 人 
着 迷 同 时 也 具有 广大 发 展 空间 的 应 用 领域 莫 过 于 对 投资 的 分 析 。 


一 、 贝 叶 斯 学 派 和 频率 学 派 


根据 对 不 确定 问题 的 不 同 回答 ， 尤 其 是 考虑 概率 方式 的 不 同 ， 统 计 学 研究 分 为 
贝 叶 斯 学 派 和 频率 学 派 两 种 。18 19 世纪 的 早期 研究 者 认为 ， 概 率 包 括 主观 和 客观 
两 个 层面 的 含义 ， 前 者 指 的 是 对 一 个 事件 发 生 的 相信 程度 ， 后 者 指 的 是 事件 在 长 期 、 
反复 发 生 中 所 体现 出 的 频率 。 到 了 20 世纪 ， 这 个 观点 产生 了 巨大 的 分 歧 并 出 现 了 两 
个 截然 不 同 的 学 派 ， 即 频率 学 派 和 贝 叶 斯 学 派 。 频 率 学 派 认为 概率 只 是 长 期 重复 实 
验 所 体现 出 来 的 频率 ， 而 贝 叶 斯 学 派 认为 概率 可 以 包含 对 不 确定 性 的 主观 见解 。 两 
者 根本 分 歧 在 于 ， 贝 叶 斯 学 派 认为 特定 的 情况 及 数据 能 够 用 来 研究 事件 发 生 的 概率 ， 
而 频率 学 派 则 强调 概率 是 长 期 实验 频率 的 客观 性 结果 。 

举例 来 说 ， 如 果 投 掷 一 枚 硬币 ， 我 们 会 怀 有 不 确定 性 的 主观 认识 ， 认 为 头像 朝 
上 的 概率 是 0.5。 现 在 需要 考虑 的 问题 是 : 对 于 下 一 次 投掷 ， 我 们 可 以 主观 上 认为 
不 确定 性 是 0.5? 或 者 0.5 只 是 代表 了 一 个 长 期 均值 ? 贝 叶 斯 学 派 认为 两 个 解释 都 
是 有 效 的 ， 而 真正 的 频率 学 派 只 认同 后 者 。 由 于 两 个 学 派对 概率 理论 的 不 同 认识 而 
产生 了 不 同 的 研究 方法 ， 这 也 反映 了 二 者 存在 实质 上 的 重要 区 别 。 这 些 争论 表明 统 
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计 学 的 根基 还 不 牢固 ， 但 是 这 并 没有 阻碍 统计 的 应 用 ， 反 而 有 利于 统计 学 的 辩证 
发 展 。 


二 、 贝 叶 斯 学 派 和 逆 概 率 


Thomas Bayes 在 1763 年 发 表 的 《机 遇 理 论 中 一 个 问题 的 解 》 中 ， 利 用 已 观测 数 
据 ， 首 次 提出 了 定量 归纳 推理 的 现代 方法 。 他 用 一 个 逆 概 率 公式 来 估计 一 个 二 项 式 
概率 ， 也 就 是 后 来 被 广泛 使 用 的 标准 方法 一 一 贝 叶 斯 定理 。 

贝 叶 斯 定理 最 简单 的 形式 是 : 对 于 两 个 事件 4 和 B， 有 


P(AL B) = PAB) _ P(B| A)P(A) 
P(B) P(BI A)P(A) + P(Bl A)P(A) 


假设 未 知 的 二 项 式 概率 是 9， 在 nn 次 独立 实验 中 观察 到 成 功 的 次 数 是 x。 那 么 ， 
贝 叶 斯 解法 可 以 写 为 


_ f(x,0) _ f(xl 0)/(0) 
(OI x) = - 
f(x) [р 0)f(8)d8 








SEP, f(01 x) 是 给 定 条 件 x 下 9 发 生 的 概率 ,f(9) 是 9 的 先 验 概率 ,f(x) AE x B 
边际 概率 。 


Bmw ” 贝 叶 斯 分 析 简介 


贝 叶 斯 方法 提供 了 一 个 在 不 确定 环境 下 进行 统计 推断 的 有 效 工具 。 贝 叶 斯 方法 
引入 了 一 种 对 概率 的 全 新 闻 释 ， 即 认为 “概率 ”是 对 不 确定 性 的 一 个 条 件 测度 。 下 
面 主要 介绍 贝 叶 斯 分 析 的 一 些 基本 概念 ， 包 括 贝 叶 斯 理论 、 先 验 概率 、 后 验 概率 
等 等 。 
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一 、 贝 叶 斯 定理 


概率 是 描述 事件 发 生 可 能 性 的 有 效 方法 。 迄 今 为 止 ， 概 率 的 概念 已 经 被 广泛 应 
用 于 社会 科学 、 自 然 科 学 、 医 学 科学 等 诸多 研究 领域 ， 在 决策 、 预 测 以 及 随机 结构 
挖掘 等 问题 上 发 挥 重 要 作用 。 在 概率 论 中 ， 我 们 对 一 个 事件 的 概率 可 以 做 出 两 种 解 
释 : 一 种 解释 认为 ， 概 率 是 在 一 大 批 结果 中 事件 发 生 频 率 的 客观 概率 或 频率 概率 ; 
另 一 种 解释 认为 ， 概 率 代表 在 给 定 信息 和 先 验 认 识 条 件 下 ， 对 特定 事件 发 生 的 不 确 
定性 的 一 种 条 件 测 度 ， 即 贝 叶 斯 概率 。 

我 们 用 两 个 经 典 的 例子 进一步 前 明 概 率 的 概念 。 首 先 ， 考 虑 抛掷 一 枚 均匀 硬币 
的 问题 。 由 于 硬币 是 均匀 的 ， 硬 币 正 面 朝 上 和 反面 朝 上 的 概率 应 当 相 等 ， 均 为 0. 5。 
这 个 概率 是 一 个 客观 概率 ， 它 是 根据 一 个 事件 发 生 的 频率 或 者 根据 逻辑 来 定义 的 。 
其 次 ， 考 虑 另外 一 个 问题 : 圆周 率 т =3. 1415926……， 它 的 第 12 位 数 是 9 的 概率 
为 多 少 ? 因为 圆周 率 是 一 个 确定 性 的 数 ， 所 以 它 的 第 12 位 数 并 没有 不 确定 性 。 因 
此 ， 不 能 用 客观 概率 的 概念 来 分 析 这 个 问题 ,但 是 可 以 考虑 用 贝 叶 斯 分 析 方 法 。 贝 
叶 斯 分 析 中 的 概率 依赖 于 先 验 知识 ， 或 者 说 以 先 验 知识 为 条 件 。 如 果 我 们 已 经 知道 
任意 一 个 数 是 圆周 率 的 第 12 位 数 的 可 能 性 都 为 /10， 那 么 , “圆周 率 的 第 12 位 数 
是 9” 这 一 判断 为 真 的 概率 就 只 有 1/10。 这 个 概率 就 是 一 种 贝 叶 斯 概率 ， 它 表示 对 
一 个 确定 事件 发 生 的 相信 程度 的 经 验 值 ， 因 此 ， 同 一 问题 中 的 贝 叶 斯 概率 可 能 是 取 
不 同 的 值 。 

贝 叶 斯 理论 是 贝 叶 斯 分 析 的 基本 工具 ， 下 面 我 们 回顾 一 下 贝 叶 斯 理论 : 

假设 AMBER HERE, EXP (AI B) 为 已 知事 件 8 已 经 发 生 的 情况 
下 事件 A 发 生 的 概率 。 如 果 事 件 B 发 生 的 概率 大 于 零 , 即 P (B) >0， 那 么 在 事件 
B 发生 的 条 件 下 事件 A 发 生 的 条 件 概 率 为 : 


P(Al B) = i (2.1) 


其 中 , P(A п B) 为 事件 4 与 事件 B 同时 发 生 的 概率 。 给 定 事件 B， 事 件 4 的 条 
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件 概率 随 着 概率 已 (8) 的 变化 而 改变 ,这 是 因为 我 们 考虑 的 是 给 定 事 件 B 已 发 生 
的 情形 。 将 上 面 关 于 条 件 概 率 的 表达 式 变形 ， 我 们 得 到 : 
P(A N B) = P(AI B)P(B) (2.2) 
这 个 公式 被 称 为 概率 乘法 规则 。 
贝 叶 斯 理论 是 以 全 概率 法 则 为 依据 建立 的 。 设 4, ,4,,… ,4 是 不 相交 事件 ， 即 
P(A, nA) =0,i#j; ЖН P(A, UA, U-- UA) 2 1, 设 必 然 事 件 Q = A, UA, 
U. UAn, P(Q) = 1 。 于 是 我 们 有 : 


P(B) = P(BIQ) = ув) А,)Р(А,) (2.3) 

这 样 ， 必 然 事件 Q MEDIO m ARE THE, ЖЕЕ B 的 条 件 概率 即 为 给 定 每 

一 个 子 事件 4)(j = 1,2,…,m) 下 事件 B 的 条 件 概率 之 和 。 于 是 ， 给 定 事件 BCPCB) 
> 0) ST A, 的 条 件 概率 可 以 写 为 : 


P(A, NB) _ P(A, N B) 
P(B) У," PCB! А)Р(А,) 








P(A, | B) = 


_ _Р(В\ A,)P(A,) 
У," PB! A)P(A) 
这 个 表达 式 就 是 贝 叶 斯 定理 。 下 面 将 介绍 如 何 利用 贝 叶 斯 定理 来 进行 基本 的 贝 
叶 斯 分 析 。 


Е 21,2,-,m (2.4) 


二 、 贝 叶 斯 分 析 导 论 


我 们 在 前 面 已 经 讨论 过 ， 贝 叶 斯 方法 将 概率 视 为 在 给 定 信息 和 先 验 概率 下 ， 对 
特定 事件 发 生 的 不 确定 性 的 一 种 条 件 测度 。 下 面 的 例子 将 说 明 如 何 将 贝 叶 斯 定理 应 
用 到 现实 问题 当中 。 

假设 在 总 人 口中 有 5% 的 人 感染 了 某 种 病毒 。 我 们 从 总 人 口中 随机 抽出 一 个 人 
对 其 进行 初步 检验 ， 结 果 为 Y， 在 该 检验 中 被 感染 者 测 出 阳性 的 概率 为 97% ， 未 被 
感染 者 测 出 阳性 的 概率 为 30% HE H, 表示 被 检测 者 携带 该 病毒 ， 事件 H_ 表示 
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被 检测 者 不 携带 该 病毒 。 根 据 已 上 信息 可 得 到 : 
P(H,) = 0.05 
P(H_) = 0.95 
同样 ， 用 事件 Y, 表示 XX 检验 结果 为 阳性 ， 事件 Y_ 表示 检验 结果 为 阴性 。 根 
据 检 验 了 出 现 不 同 结果 的 概率 可 知 : 
P(Y,| H.) = 0.97 
P(Y,| Н.) = 0.30 
这 里 , P(Y,| H.) = 0.97 是 在 已 知 信息 H, 的 条 件 下 事件 Y, 发 生 的 概率 ， 也 可 
理解 为 在 已 知 信息 Н, 的 情况 下 检验 Y, 的 精确 度 。 
下 面 ， 我 们 关注 的 是 在 已 知 检验 结果 为 阳性 后 ， 被 测试 者 实际 携带 该 病毒 的 概 
Ж РОН Y.) o 根据 贝 叶 斯 理论 ， 可 以 计算 出 : 


PCY, Н,)РОН,) 


P(H, | Y.) PO 





_ P(Y,| H,)P(H,) 
© P(Y, H,)P(H,) +P(Y.I H )P(H ) 





_ 0.97 x 0.05 
© 0.97 x 0.05 + 0. 30 x 0.95 





= 0.15 
从 以 上 结果 可 以 看 出 ， 给 定 了 检验 为 阳性 CY, ) 这 一 信息 后 ， 该 人 携带 该 病 
毒 的 概率 由 5% 提高 到 了 15% 。 
现在 ， 我 们 让 该 被 测试 者 进行 一 个 更 加 精确 的 检验 Q ， 这 种 病毒 检验 Q 的 精确 
度 为 : 
P(Q,| H.) = 0.98 
P(Q,| Н.) = 0.10 
在 该 被 测试 者 进行 检验 了 之 前 ， 我 们 可 以 预测 检验 了 结果 为 阳性 的 概率 为 : 
PCO! Y,) = P(Q, Н! Y,) + P(Q, ,H | Y.) 
= P(Q,| H.) x P(H,| Y.) + P(Q,! H.) x P(H | Y.) 
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= 0.98 x 0. 15 + 0. 10 x 0. 95 
= 0.24 
ЖА. PQI Y.) 21 - P(Q.I Y.) = 0.76 , 
下 面 ， 我 们 关注 的 是 给 定 了 检验 为 阳性 且 0 检验 为 阴性 下 ， 被 测试 者 携带 该 病 
毒 的 概率 P(H.| Y, ,Q.)。 
由 于 P(AnBIC)=P(AI BO С)Р(ВІ С) = Р(ВІА п С)Р(АІ C) 
ФА = Н,,В = 0_,С = Y,, 148: 
PCH, ,0.] Y.) 
= Р(Н,\ Y.,Q. )P(Q.I Y.) 
= PCQ.I H, ,Y,)PCH,I Y.) 
= P(Q_| H.)P(H.I Y.) 
其 中 最 后 一 个 等 式 成 立 是 因为 P(Q_1 H. ,Y,) = P(Q I H.) 。 从 而 可 得 : 
P(Q_| H,)P(H,I Y.) 
PUG I Y.) 


: РО 1 H.)P(H.A Y.) 
~ P(QJ H,)PCH,| Y.) + P(Q.J H )P(H 1 Y.) 


PCH,| Y, ,Q_) = 








" 0.02 x 0. 15 
~ 0.02 х0. 15 + (1 - 0.10) x (1 - 0.15) 





= 0. 0038 
因此 ， 检 验 @ 的 结果 将 被 测试 者 携带 病毒 的 概率 从 15% 降低 到 了 0. 38% 。 
综 上 所 述 ， 一 个 人 携带 该 病毒 的 概率 随 着 给 定 信息 的 不 同 而 发 生 以 下 变化 : 
5% 进行 了 检验 和 Q 检验 之 前 
P(H,| 信息 ) = ,15% 了 检验 阳性 ,O 检验 之 前 
0.38% 了 检验 阳性 ,0 检验 阴性 
在 进行 观察 之 前 ， 我 们 就 对 被 测试 者 携带 该 病毒 的 概率 有 一 个 先 验 概率 。 在 得 
到 XX 检 验 的 观测 值 后， 通过 计算 后 验 概率 对 被 测试 者 携带 该 病毒 的 概率 进行 修正 。 
此 外 ， 我 们 还 可 以 预测 Q 检验 呈 阳 性 的 可 能 性 大 小 。 最 后 ， 我 们 将 检验 Q 的 结果 也 
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纳入 考虑 ， 再 次 修正 这 一 概率 。 也 就 是 说 ， 我 们 可 以 适当 将 所 有 可 以 得 到 的 信息 纳 
人 考虑 ， 从 而 修正 被 测试 者 携带 该 病毒 的 概率 。 

我 们 也 可 以 从 下 面 的 角度 来 求 PCH,I Y, ,Q_) : 给 定 了 检验 阳性 、Q 检验 阴性 ， 
我 们 可 以 将 检验 (Y, Q) 联合 起 来 看 ， 计 算出 的 P(H.I Y, ,0.) 。 由 于 检验 了 和 检 
® Q 是 相互 独立 的 ， 我 们 有 : 

P(Y, ,Q.l H,) = P(Y,| H,)P(Q.| H.) = 0.0194 
P(Y, ‚Q| H.) = PCY,| H )P(Q.1 В.) 20.27 
根据 贝 叶 斯 理论 得 到 : 


P(Y, ,0-1 H,)P(H,) 


P(H,| Y, ,0.) = PLE, ,0.1 H.)P(H.) + P(Y, ‚Q| H_)P(H_) 





_ 0.0194 х 0.05 
~ 0.0194 x 0.05 +0.27 x 0.95 





= 0. 0038 
这 表明 在 给 定 信息 下 ， 两 种 方法 的 结果 都 是 基本 相同 的 。 下 面 ， 我 们 分 别 运 用 
这 两 种 方法 计算 PCH, Y.,Q.) : 





为 法 一 ， 
P(Q. H.)P(H,I Y, 
PULL Y, ,0,) = T Te) 
_ P(Q, Н,)Р(Н.\ Y.) 
= POO, HPCH, Y.) +РСО HPU Y.) 
8 0.98 x 0. 15 
~ 0.98 x0.15 + (0.10) x (1 -0.15) 
= 0. 6248 
方法 二 : 


P(Y, ,Q,| B.) = P(Y,| H,)P(Q,| B.) = 0.9702 
P(Y, ,0.1 Н.) = P(Y,| Н.)Р(О Н.) = 0. 03 
根据 贝 叶 斯 定理 得 到 : 





_ РҮ, ,0.1 Н,)Р(Н,) 
= PCY, ,Q,| H,)P(H,) + P(Y, ‚0,1 H)P(R.) 


_ 0. 9702 x 0.05 
= 0.9702 x 0.05 + 0.03 х0. 95 


P(H,l Y, ,Q,) 


== 0. 6299 

以 上 分 析 表 明 ， 两 种 方法 结果 基本 一 致 ， 但 由 于 计算 过 程 小 数 保留 位 数 的 原因 
造成 些许 误差 。 

当然 ， 我 们 也 可 以 进行 两 次 Y 了 实验。 下面， 假设 我 们 没有 Q 检验 ， 仅 对 同一 个 
被 测试 者 进行 两 次 了 检验 ， 结 果 分 别 为 阳性 、 阴 性 ( 记 为 Y，, 闫 ) ,假设 两 次 检验 
是 独立 的 。 于 是 : 

P(Y, ,YI H.) = P(Y.l H,)P(Y!| H.) = 0.97 х0. 03 = 0. 0291 

P(Y! ,Y | H.) = P(Y H )P(Y.| H ) 203x0.7 20.21 

根据 贝 叶 斯 理论 得 到 : 


P(Y, ,YI Н,)Р(Н,) 


P(H,| Y, ,Y*) = 
LIT, ES P(X! ,XI H,)P(H,) + P(Y, ,Y| H )P(H ) 





E 0.0291 x 0. 05 
= 0.0291 x 0.05 + 0.21 x 0. 95 





== 0. 007240 

经 过 两 次 了 检验 ， 被 测试 者 携带 该 病毒 的 概率 由 一 次 了 试验 后 的 15% 减 小 到 了 
约 0.7240% ,虽然 没 有 进行 了 检验 后 再 进行 Q 检验 精确 ， 但 仍然 有 助 于 对 被 测试 者 
是 否 携带 该 病毒 进行 判断 。 但 是 ， 现 实 中 两 次 了 检验 的 结果 很 可 能 不 是 相互 独立 的 ， 
因而 实际 上 给 定 了 ,站 信息 后 ， 被 测试 者 携带 病毒 的 条 件 概率 应 该 比 0.7240% 要 
大 ， 但 这 仍然 为 提高 检验 精确 度 提供 了 一 种 思路 。 这 也 就 是 医生 在 很 多 情况 下 要 求 
病人 复查 的 原因 。 
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根据 实际 研究 的 需要 ， 我 们 经 常 要 将 一 个 系统 分 为 有 限 个 状态 ， 甚 至 分 为 可 数 
无 限 状 态 ， 然 后 根据 所 处 状态 的 不 同 来 对 系统 进行 研究 。 令 中 表示 这 样 状态 的 集 
合 ， 具体 地 , M 可 以 取 整 数 集 的 子 集 ， 则 M 就 是 这 个 系统 的 状态 矢量 空间 。 假 设 在 
离散 的 时 间 点 上 对 系统 进行 观测 ， 并 令 X, 表示 系统 在 上 时刻 的 状态 。 由 于 我 们 的 研 
究 对 象 是 非 确定 性 的 系统 ， 所 以 对 不 同 的 时 间 点 来 说 ， 通 常 假设 X(t = 0) 是 定义 
在 同一 概率 空间 的 随机 变量 。 尽 管 有 了 以 上 假设 ， 但 问题 依然 比较 复杂 ， 仍 需要 在 
其 他 方面 做 出 假设 。 

比如 ， 可 以 假设 X, 是 相互 独立 的 随机 变量 。 对 于 一 个 不 断 重复 的 系统 来 说 ， 人 
们 常常 假设 该 系统 未 来 所 处 状态 与 现在 和 过 去 都 不 相关 ， 这样 的 独立 性 假设 会 使 问 
题 的 处 理 得 到 相当 程度 的 简化 。 但 在 现实 中 独立 性 未 必得 到 满足 ， 即 便 系统 在 过 去 
和 现在 所 处 的 状态 不 会 直接 确定 未 来 状态 ,但 也 会 对 未 来 所 处 的 状态 产生 一 定 影响 。 
马尔 科 夫 对 独立 性 这 个 较 强 的 假定 做 出 了 适当 的 放松 ， 相 对 于 独立 性 条 件 来 说 更 加 
贴近 现实 。 

马尔 科 夫 性 是 指 在 当期 取 值 给 定时 ， 滞 后 期 取 值 将 不 会 对 未 来 值 产生 影响 。 具 
有 这 种 特性 的 系统 被 称 为 马尔 科 夫 链 。 马 尔 科 夫 性 如 式 3. 1 所 示 : 


P(X = Xa | X, = 45, *"" X, E x,) = P(X,, = х, | X, = x,) (3.1) 


P(X,, = у! X, = x) 是 马尔 科 夫 链 的 转移 概率 。 接 下 来 ， 将 介绍 具有 固定 转移 
概率 的 马尔 科 夫 链 ， 也 就 是 P(X,,，= yl X, = х) 与 上 无 关 的 情况 。 下 文中 如 果 说 到 


X,(t > 0) 是 一 个 马尔 科 夫 链 ， 那 么 则 意味 着 这 些 随机 变量 满足 马尔 科 夫 性 并 且 有 固 
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定 的 转移 概率 。 研 究 这 种 特殊 的 马尔 科 夫 链 是 因为 它 有 很 强 的 理论 基础 ， 而 且 这 些 
理论 容易 让 初学 者 接受 。 另 外 ， 现 实 中 有 大 量 的 系统 可 被 归 为 马尔 科 夫 链 ， 它 在 实 
际 操作 中 非常 实用 。 

首先 ， 考 虑 只 有 两 种 状态 的 马尔 科 夫 链 。 


В 第 一 节 有 两 种 状态 的 马尔 科 夫 链 


举 一 个 有 关 汽 车 的 例子 。 汽 车 每 天 都 可 能 出 现 故 障 ， 假 设 在 第 1 天 出 现 故 障 并 
在 第 (1+1) 天 修好 的 概率 为 p; 在 第 1 天 运转 正常 并 且 在 第 (++1) 天 出 现 故障 的 概 
KH qo 

m, (0) 是 汽车 在 第 0 天 出 现 故障 的 概率 。 状 态 0 代表 出 现 故障 ， 状 态 1 代表 
运转 正常 。 随 机 变量 X, 代表 汽车 在 第 上 天 的 运转 状态 。 则 有 : 

Р(Х = 11 X, = 0) =p 
Р(Х = 01 X, = 1) =q 
P(X, = 0) = (0) 
由 于 系统 只 有 0 和 1 两 种 状态 ， 根 据 上 式 可 以 得 到 : 
Р(Х =01X, =0) =1-p 
Р(Х 2101 X, 21) 21-q 
并 且 汽 车 的 初始 状态 为 1 的 概率 ro (1) Ж: 
m (1) = P(X, 21) 21- mq, (0) 
下 面 ， 我 们 根据 这 些 信息 计算 Р(Х, = 0) 和 P(X,, =1) o 
P(X, = 0) 
= P(X, 20,X,, 20) + P(X, = 1,X,,, = 0) 


= P(X, = 0) Р(Х = 01 X, = 0) + P(X, = 1) Р(Х 801 X, = 1) 
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= (1 - p) Р(Х, = 0) +q P(X, = 1) 
= (1-р) Р(Х, 20) +q (1 - Р(Х, = 0)) 
= (1-p-q) Р(Х, = 0) +q 
H Р(Х, 20) = п,(0) ,所 以 P(X 20) = (1-p-q)mj(0) +q. FEHL, Р(Х, 
= 0) 2(1-p-q)P(X, = 0) +q = (1 -p -q)?m (0) +9[1+(1-р-9)]. 

把 上 式 重 复 上 次 ， 得 到 : 

P(X, =0) = (1 =p=a)'m(0) +9, (1-g-pY (3.2) 
当 p =9 =0 时 ， 对 于 所 有 的 上 ， 都 有 : 

P(X, 20) = m(0) Р(Х, 21) = т(1) 

当 p +q >0 时 ， 根 据 等 比 数 列 求 和 公式 : 


1-1 
‚ 1—(1-р-@)' 
1-p-q)' = 
à р-9 er 





代入 式 3.2， 可 以 得 到 ; 


_ БИА ар EDEN db 

P(X, =0) cr + (1 =p — gq) (m(0) T4 (3.3) 
=, = A A t s 

P(X, = 1) э м + (1-р-)'(т(1) y 2) (3.4) 


假设 p 和 9 不 同时 为 0 或 1, 则 0 <p +q < 2, В ]1-p-ql <1。 在 这 种 
情况 下 ， 我 们 令 式 3.3 和 式 3.4 中 的 1 一 % 18: 


limP(X, 20) = — 
1-9 р +q 


linP(X, = 1) = —— 
io p*q 


我 们 还 可 以 用 其 他 方法 求 m 和 TF o E mo (O) 1 Tro CL) 作为 研究 对 象 并 


Afi P(X, = 0) 和 P(X, = 1) 独立 于 上 ， 那 么 根据 式 3. 3 和 式 3.4， 得 到 : 


0 کے‎ mq Ty =. =P. 
m, (0) p +q (1) p +q 
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因此 如 果 系 统 X,(t > 0) 是 从 上 述 分 布 开始 的 ， 即 : 


P(X, 20) = 下,PO=1 = —— 
p +q p +q 
那么 对 于 系统 中 所 有 的 + ， 都 有 : 


Р(Х, = 0) = —L—, Р(Х, 21) = —2— 
р+9 р+9 


上 面 的 这 个 例子 并 没有 清楚 地 说 明 该 系统 状态 Х,( > 0) 是 否 一 定 服从 具有 马 
尔 科 夫 性 。 但 是 ， 当 我 们 假设 该 系统 状态 服从 马尔 科 夫 性 后 ， 就 可 以 计算 Х|, X, 
5, X, 的 联合 分 布 。 

$:1-22,X,X, MX, 3021, MA: 

PX, =, = x X, = x.) 

= P(X = ж „А, = ж )Р(Х, = کو = پک او‎ = %) 

= Р(Х, а) POR = wil X, =з) PCX = wal Me = к, Е) 

上 式 中 除 P(X, = x | X, = x,X, = x,) 之 外 , P(X, = x) FI P(X, = x, | X, = 
xo) AMBRE HH p, q 和 0(0) 表示 。 如 果 系 统 满足 马尔 科 夫 性 ， 则 有 : 
P(X, = 8al Хо = fy = №) = Р(Х, 2m,l X, 2x) 
ER q, p 取 值 决定 。 在 这 种 情况 下 ， 
Р(Х, = 3 = wš) 
= P(X, =з) Р(Х, = x, Í X, = ж) Р(Х, = x, | X, = x; ) 
根据 以 上 公式 ， 可 以 计算 出 以 下 各 种 情况 的 概率 : 
P(X, 20,X, = 0,X, = 0) 
= P(X, = 0) P(X, 201 X, = 0) Р(Х, 201 X, = 0) 
= To(0) (1 - p)° 
P(X, 20,X, = 0,X, = 1) 
= P(X, 20) P(X, 201 X, 20) P(X, 211 X, =0) 
= To(0)(1 - p)p 
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P(X, =0,X, = 1,X, = 0) 


= P(X, 20) P(X, = 11 X, = 0) Р(Х, 


= mo (0)pq 


P(X, 20,X, = 1,X, = 1) 


- P(X, 20) P(X, 211 X, 2 0) P(X, 


= my (0)p(1 - q) 


P(X, = 1,Х, = 0,Х, = 0) 


= P(X, = 1) P(X, = 0! X, = 1) P(X, 


= (1 — т(0)) q(1 


=p) 


P(X, 21,X, = 0,X, = 1) 


= Р(Х, =1) P(X, 201 X, = 1) Р(Х, 


= (1 - m (0) )pq 


P(X, 21,X, = 1,X, = 0) 


= 01 X, 


=11X, = 


- 01 X, 


=11 X, 


= P(X, 21) P(X, 211 X, = 1) Р(Х, = 01 X, 
= (1 -m(0)) (1 - q)q 


Р(Х = 1,Х, = L,X, = 1) 


= P(X, = 1) P(X, = 11 X, = 1) Р(Х, 


= (1 —mo(0)) (1-4) 


结果 汇总 如 表 3 -1。 


211 X, 


= 1) 























46 








表 3 -1 
Xo X, 2 P(X) = %, ещ, =) 
0 0 0 m (0) (1-р)? 
0 0 1 To (0) (1-p) p 
0 1 0 To (0) pq 
0 1 1 то (0) p (1-4) 
1 0 0 (1-т, (0)) q (1-р) 

















їж 





Р (Xo= xo, е, Ë = s) 





| | 0 | 1 | m (0)) gp 
| | 1 | 0 (1L-m (0)) (1-9) q 


1 1 1 (1-7 (0)) (1-9)? 











D 第 二 节 ”转移 函数 和 初始 分 布 


考虑 放松 系统 只 有 两 个 状态 的 约束 条 件 。 假 设 X,(t > 0) 是 状态 空间 为 VOWS 
尔 可 夫 链 , x e Jt, y e Wt, {ХШ РАФ Р(х,у) 可 以 定义 为 : 


Р(х,у) = Р(Х, 2yl X =x) x,y e 9 (3.5) 
AA: 
Р(х,у) 20, х,у є Я (3.6) 
У, P(x y) = 1.7 е M (3.7) 
由 于 马尔 可 夫 链 中 的 状态 转移 概率 是 稳定 的 ， 我 们 可 以 得 到 : 
Р(Х =yl X, =x) = Play) 621 
由 马尔 可 夫 性 可 以 得 出 : 


PiX = yl X, = Kost wha = My aay = x) 

= P(X,,, = y! Ж, = x) 

= P(x,y) 

也 就 是 说 ， 如 果 马 尔 可 夫 链 在 时 点 t 的 状态 是 x ， 那 么 不 管 它 过 去 如 何 达 到 х, 
它 在 下 一 步 中 达到 状态 y 的 概率 是 P(x,y) 。 因 此 , Р(х,у) 被 称 为 马尔 可 夫 链 的 一 
阶 转移 概率 。 

马尔 可 夫 链 的 初始 状态 分 布 函数 a (x) (x є M) 被 定义 为 : 

mlx) = Р(Х, = x) , х e M 
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并 且 有 : 
T(x) > 0,х e M 
2, то(х) = 1 
在 以 上 假设 的 基础 上 ， 可 以 得 到 XX,,…,X, 的 联合 分 布 关 于 转移 函数 和 初始 分 布 
的 图 数 。 比 如 ， 
P(X, = wy À = tp) 
-2P(X,-uw)P(X, = x, Ж, = x) 
= Tro (xo) P( xo x, ) 
同 理 ， 
Р(Х = %„Х = ар mm) 
= P(X; = % Ay = % PCAs 241 XX, = x,X, 2) 
= malto) P(% .%,)PCX, = x,1 X; = %,X, = x) 
由 于 X(t > 0) 满足 马尔 可 夫 性 质 并 且 有 稳定 的 转移 概率 ， 所 以 : 
Р(Х, = ا‎ X, = وک‎ = xo) 
= P(X, =х„\ X, = х) 
= Р(х, ,x> ) 
因此 ， 
P(X, 2x,X, = x, Xo = x) 
= P(X; = x,,X, = xs, )P(X; = x, | X; =x,X, = xi) 
= qr (xo) P(xo xi) PC ,x ) 
归纳 可 得 以 下 公式 : 
P(X, = x,X, = x,,7-,X, = x,) 
= Tmol xo) P(x x, ) Р(х ,x2) P(x ,x,) 


在 以 后 的 学 习 中 ， 读 者 们 将 体会 到 以 上 公式 的 重要 性 。 
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D 第 三 节 马尔 科 夫 链 的 一 些 性 质 


我 们 现在 介绍 马尔 科 夫 链 的 一 些 性 质 ， 这 是 研究 隐蔽 马尔 科 夫 模型 (Hidden 
Markov Model，HMM) 的 基础 。 下 面 的 讨论 仅 限于 后 面 章节 所 需要 的 离散 马尔 科 夫 
模型 的 研究 。 因 此 ， 尽 管 我 们 会 提 及 不 可 约 性 〈Ireducibility) 和 非 周期 性 ( Aperio- 
dicity) 等 属性 ， 但 不 会 过 多 地 讨论 其 技术 层面 的 细节 问题 。 

КЕКИ 如 果 一 个 离散 型 随机 变量 序列 (C: 1 e N}, C, e {1,2,...,m}, 
对 于 所 有 的 : e N 都 满足 马尔 科 夫 性 质 : РОС, 1 C,,…,C1) = P( C1 C,) ， 则 称 此 
序列 为 离散 时 间 的 马尔 科 夫 链 。 

也 就 是 说 ， 以 第 :期 及 之 前 所 有 期 的 历史 数据 为 条 件 来 推断 第 :+1 期 ， 等 价 于 
仅 以 最 近 一 期 的 数据 C, 为 条 件 来 推断 第 :+1 期 。 为 了 简化 公式 ， 我 们 定义 С, 表示 
整个 历史 过 程 (C,,…,C,) ， 于 是 在 此 条 件 下 马尔 科 夫 过 程 可 以 表示 为 : PC, | Ci) 
= PCG... | G.) a 

我 们 可 以 认为 ， 马 尔 科 夫 性 是 对 独立 性 假设 的 初步 放松 。 为 了 数学 上 计算 的 方 
便 ， 马 尔 科 夫 性 假设 随机 变量 | С, | 仅仅 依赖 于 前 一 期 的 数据 ， 过 去 时 期 仅 通过 现在 
一 期 对 未 来 一 期 产生 影响 。 

在 马尔 科 夫 链 中 非常 重要 的 概念 和 环节 就 是 下 面 的 条 件 概率 ， 我 们 称 之 为 转移 
概率 ， 即 在 s 时 刻 所 处 状态 i 转移 到 s + t 时 刻 所 处 状态 7 的 概率 : 

PCC, 过 四 | б, = i) 

如 果 这 些 转移 概率 独立 于 时 间 *， 那 么 这 个 马尔 科 夫 链 被 称 为 齐 次 的 〈 Homoge- 
neous), ， 和 否则 为 非 齐 次 的 〈Nonhomogeneous) 。 在 不 做 特别 说 明 的 情况 下 ， 本 书 中 所 
讨论 的 马尔 科 夫 链 都 是 齐 次 的 ， 从 而 在 此 条 件 下 转移 概率 可 以 表示 为 : 


y (t) = PCC,,, = j! C, = i) 
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值得 注意 的 是 ， 上 式 中 yy;(t) Hs ЖЖ, MH y; (t) 所 组 成 的 转移 矩阵 了 (i) 也 
与 s TK, BEEP (ij) 位 置 的 元 素 代 表 y; (t) o 
有 限 状态 空间 的 齐 次 马尔 科 夫 链 都 具有 一 个 十 分 重要 的 性 质 ， 即 满足 Chapman- 
Kolmogorov 方程 : 
I(t +u) = Г(ї)Г(и) 
Chapman - Kolmogorov 方程 的 具体 证 明 过 程 如 下 : 


Yalt) co yuQ 
P(t) = 

Ym (f) c Ум) 

Yalu) с yuQ) 
Г(и) = 

Yu(u) c Уби) 


jx WI RE PERE FEE 90 BT RE PE HISÊ i 4728 j 列 的 元 素 为 : 


Saati = = у= = КІС, =i)P(C,,, =j| C, = Е) 


kel 


= Y P(C,. = kl C, = PC, = jl C. = k) 
k=1 

= > Рб =]! С, = i) 
k=1 


fi Cr +u) 的 第 4998 列 的 元 素 也 为: Y PC =j1 C = i) , BUT + 
u) = Г(ї)Г(и) 得 证 。 

根据 Chapman - Kolmogorov Fst, 对 所 有 1 e N, 有 T(t) =T (1)'; 也 就 是 1 
步 转移 的 转移 概率 矩阵 (Transition Probability Matrix, (EK “t p.m. ") 是 T(1) 也 
就 是 第 一 步 转移 的 转移 概率 矩阵 的 ;次 方 。 和 矩阵 TO) ( 下面 将 会 被 简写 为 ) 是 一 
个 由 概率 组 成 的 方 阵 ， 它 每 行 的 元 素 之 和 为 1 : 
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Yu Уа 


Yu C75 Ya. 

HF, m 表示 马尔 科 夫 链 的 状态 数 。 行 的 元 素 和 为 1， 即 列 向 量 1” 是 工 的 特 
征 向 量 并 对 应 于 特征 值 1 (这 是 因为 了 1 =1) 。 我 们 可 以 视 工 为 第 一 步 转移 的 转移 
概率 和 矩阵。 请 大 家 注意 ， 这 里 向 量 表示 不 同 于 一 般 习惯 ， 形 如 1 的 向 量 表示 的 是 行 
向 量 。 

马尔 科 夫 链 在 给 定时 间 t 处 于 给 定 状 态 的 无 条 件 概 率 P(C, = j) 是 研究 的 重点 。 
我 们 用 下 面 行 向 量 来 表示 上 述 概率 : 

u(t) = (P(C, 21), РОС, = m));t e N 

u(1) 表示 马尔 科 夫 链 的 初始 分 布 (Тапа! Distribution) 。 为 了 通过 上 期 的 信息 得 

到 第 :+1 期 的 分 布 ， 我 们 把 第 上 期 概率 分 布 右 乘 转移 概率 矩阵 工 : 
u(t +1) = u(1)T 
这 是 由 于 : P(C = i) 


= Y PCC, =j)P(CG,, = il C, = j) 


j=l 


3 


= P(C, = Ј)уџ 


~ 


їй w(t) 右 乘 工 所 得 向 量 的 第 i 个 元 素 也 为 Y P = Dy ， 因 此 上 式 得 证 。 
下 面 通过 一 个 具体 例子 来 说 明 。 现 在 有 一 个 描述 股市 是 牛市 或 者 熊市 的 时 间 序 
列 数据 ， 假 设 每 天 股市 的 状态 仅 与 前 一 天 的 状态 有 关 ， 转 移 概率 矩阵 如 表 3 -2 





表 3 -2 
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fai ed 


也 就 是 说 ， 如 果 今 天 是 熊市 ， 那么 明天 也 将 是 熊市 的 概率 是 0.8; 如 果 今 天 是 
牛市 ， 那 么 明天 是 牛市 的 概率 是 0.7。 于 是 该 股市 符合 有 两 个 状态 的 齐 次 马尔 科 夫 
链 ， 其 转移 概率 矩阵 为 : 

0.8 0.2 
eg 
0.3 0.7 

用 1 代表 熊市 ,2 代表 牛市 ， 假 设 今天 也 就 是 第 一 期 为 牛市 ， 这 意味 着 今天 股 
市 的 概率 分 布 为 : 

#(1) = (PCG = 1),BR(6, =2)) = (0 1) 

明天 和 后 天 股市 的 概率 分 布 可 以 通过 对 u(1) 连续 右 乘 工 得 到 : 

u(2) = (PCG, = 1),P(G; = 2)) = wT = (0.3. 0.7) 

и(3) = (P(C, 31),P(C, = 2)) = и(2)Г = (0.45 0.55) 

WRG EE Г 的 马尔 科 夫 链 ， 满 足 条 件 5T = 5 并 且 51' = 1, 
则 称 其 有 稳 态 分 布 6, 6 为 所 有 元 素 均 为 非 负 的 行 向 量 。 其 中 第 一 个 条 件 描 述 的 是 稳 


定性 ， 而 第 二 个 条 件 则 是 要 求 8 确实 为 概率 分 布 。 马 尔 科 夫 链 的 转移 矩阵 举例 如 下 : 
13 1⁄3 1⁄3 


I1 = 2/3 0 1⁄3 








1/2 172 0 
其 稳 态 分 布 为 8 = (1S 9 8), 

可 以 根据 定义 中 的 两 个 条 件 来 求 出 稳 态 分 布 ， 即 要 满足 : 
13 1/3 1/3 

2/3 0 d 9, 04) 


1/2 1/2 0 


(à 6, 6;) 





6, +ó, +6, = 1 


HF u(t +1) = u(DT ， 如 果 一 个 马尔 科 夫 链 从 它 的 稳 态 分 布 开始 ， 之 后 所 有 





时 间 点 都 会 有 同样 的 分 布 ， 我 们 把 这 样 的 过 程 叫 做 稳 态 马尔 科 夫 链 (Stationary 
Markov Chain) 。 需 要 说 明 的 是 ， 马 尔 科 夫 链 具 有 齐 次 性 并 不 是 其 成 为 稳 态 马尔 科 夫 
链 的 充分 条 件 。 因 此 我 们 将 初始 分 布 是 稳 态 分 布 的 齐 次 马尔 科 夫 链 (Homogeneous 
Markov chain) 前 面 加 一 个 形容 词 “айк” (Stationary ) 。 不 可 约 的 〈 齐 次 、 离 
散 时 间 、 有 限 状 态 的 ) 马尔 科 夫 链 有 唯一 的 、 严 格 为 正 的 稳 态 分 布 。 

马尔 科 夫 链 的 可 逆 性 常常 引起 研究 者 的 兴趣 。 如 果 一 个 随机 过 程 的 分 布 在 逆转 
的 时 间 下 是 不 变 的 ， 那 么 称 这 个 随机 过 程 是 可 逆 的 。 对 于 转移 矩阵 为 耻 ， 稳 态 分 布 
为 8 的 不 可 约 的 马尔 科 夫 链 ， 可 逆 性 的 一 个 充分 必要 条 件 是 ， 对 所 有 的 状态 上 和 六: 

бу; = буу» 

两 种 状态 的 不 可 约 的 稳 态 马尔 科 夫 链 也 满足 上 述 条件 ， 因 此 ， 这 样 的 马尔 科 夫 
链 是 可 逆 的 。 

下 面 ， 我 们 对 HMM 的 自 相 关 函 数 (Auto - Correlation Function， 简 称 “ACF”) 
进行 比较 。 假 设 马 尔 科 夫 链 是 稳 态 的 并 且 是 不 可 化 简 的， 那么 它 的 АСЕ 可 以 通过 如 
下 方法 得 到 : 

首先 ， 定义 v = (1, 2,…, т) 并 且 V = diag(1, 2,…, m) ， 则 对 于 所 有 非 负 
整数 上 ， 都 有 : 





Cov(C, ,C,,,) = 6VI*v' - (ov)? 

第 二 ， 如 果 工 可 对 角 化 ， 并 且 它 除了 1 之 外 的 特征 值 表示 为 wu 0, U, On, 
那么 工 可 以 被 写成 = 000, HPO = diag(1, w, os，…，,wn) , E UKW 
各 列 向 量 是 工 的 对 应 特征 值 的 特征 向 量 。 于 是 对 于 非 负 整数 有， 

Cov(C,,C,,,) = 6VUQ'U^'v' - (8v)? 


m 

k k 

= aQ b -ab = Y ab а 
=2 


m 
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复兴 科技 : 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方 法 


ДР, a = 6VU , b = Uv’, RJ Var(C,) = Sad, , 并且， 对 于 非 负 整数 及， 


p(k) = Corr(C,,C,,,) = Y abo / у, ab 
这 是 0з, 03, ©, On 的 天 次 方 的 加 权 平 均 ， 在 某 种 程度 上 与 高 斯 (Gaussian) m 
-1 阶 自 回归 过 程 相似 。 以 上 等 式 意 味 着 当 m =2 时 ， 对 于 所 有 非 负 整数 大 都 有 
p(k) =p (1)* ,并 且 p(1) ГАВАНА, ПТ Г 的 特征 值 。 


D 第 四 节 ”转移 和 矩阵 的 估计 问题 


如 果 给 出 一 个 马尔 科 夫 链 的 样本 数据 ， 并 想 估 计 转 移 概率 ， 有 几 种 方法 可 以 选 
择 ， 其 中 一 个 办 法 就 是 找到 转移 的 次 数 并 通过 转移 次 数 估计 转移 概率 。 例 如 ， 具 有 
三 个 状态 马尔 科 夫 链 的 观测 值 序列 如 下 : 

2121321312 2231213122 1133223222 2321213232 1123322232 
3123132121 2233221213 2213233132 3223232131 1132123212 
4 12 1 


那么 转移 次 数 的 矩阵 为 (f) = 16 13 14 








7 18 5 
其 中 方 表 示 观 察 到 的 从 状态 ; 到 状态 7 的 转移 次 数 。 由 于 从 状态 2 到 状态 3 的 转 

移 次 数 为 14， 并 且 所 有 的 从 状态 2 的 转移 次 数 为 16 + 13 + 14， 因 此 ys 一 个 较为 可 

信 的 估计 是 14/43 ， 从 而 转移 矩阵 可 以 估计 为 : 

4/21 12/27 11/27 


16/43 13/43 14/43 








7/30 18/30 5/30 
我 们 下 面 证 明 ， 这 实际 上 是 在 给 定 观 察 值 的 条 件 下 求 转移 概率 矩阵 工 的 最 大 似 
然 佑 计 。 
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假设 m 状 态 马尔 科 夫 链 的 一 个 实现 (Realization) Су, С, ++, Cr, RITEM 
中 估计 出 m" - m 个 参数 y; 。 以 观测 值 为 基础 的 似 然 函数 为 : 


求解 最 大 似 然 函 数 的 过 程 如 下 。 

首先 ， 我 们 可 以 从 观察 值 中 找 出 每 一 种 转移 发 生 的 频数 矩阵 ; 
Jw du s 
fa fo oco Sam 


fs fa = K. 
一 般 情况 下 ， 如 果 每 个 事件 都 是 独立 的 ， 整 个 事件 发 生 的 可 能 性 就 是 所 有 独立 
事件 的 概率 相 乘 ， 于 是 亿 然 函数 计算 如 下 
L = p(xi)pGa) 7 p(x,) 
假设 从 状态 i 转移 到 状态 j 的 概率 为 y，， 则 共 发 生 方 次 这 样 的 转移 ， 在 写 出 他 
然 函 数 时 ， 就 应 该 有 /个 y; AE, MAy 。 例 如 可 以 从 状态 1、2、.…、m 转移 到 
状态 j ， 转 移 概 率 分 别 为 yj、 yy、…、 Ya o 
转移 一 次 后 ， 状 态 为 7 的 概率 为 :5 = yif yw = Ц. 
所 有 可 能 的 转移 概率 相 乘 得 到 
L = H = ITT > 
对 上 述 似 然 函 数 取 自然 对 数 ， 为 : 
ius Xy) = > i 
STER А, БОКЕ, PTE L. H1- У, ya 替换 ys XLR 
转移 概率 矩阵 ; 行 向 量 非 对 角 线 元 素 的 微分 ， 并 使 导数 等 于 0。 
= Y flay = (X any) *füny, = (Y fins) + film (1 У y) 


(| EERE: 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方 法 


ERX y; 求 导 ， 可 得 : 
Íi -fi fi г » Ya fi = Vi fii a 


TT li 
Y; 1- у раа Уу Yi Vi * У; 





PRG, fuv = ДУ o 
上 式 两 边 对 7 求 和 得 : 2 = 2 AY о 


由 于 Y уу = 1 ， 从 而 得 到 : y, Y f, = Sa 
这 表明 该 似 然 函数 的 局 部 最 大 化 条 件 为 ; 











e fi > f; Vi _ fi 
Yu = m У; = £ E m 
> f >, fi 
j=1 j=1 





因此 ， 这 种 方法 所 得 到 转移 概率 估计 量 = — (i,j = 1,…,m) 可 以 被 视 为 
She 


Xt y, 的 有 条 件 最 大 似 然 估 计量 。 转 移 概 率 矩 阵 的 估计 量 还 应 满足 行 向 量 之 和 等 于 1 
的 要 求 。 
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隐蔽 马尔 科 夫 模型 





混合 分 布 和 隐蔽 马尔 科 夫 模型 


隐蔽 马尔 科 夫 模型 (Hidden Markov Model, 简称“HMM”) 是 指 所 产生 观测 值 
的 分 布 取决 于 潜在 状态 的 模型 。 这 种 状态 变量 具有 两 个 特点 : 首先 ， 该 状态 变量 是 
不 可 观测 的 ; 其 次 ， 它 服从 马尔 科 夫 过 程 。HMM 在 时 间 序 列 分 析 中 得 到 广泛 应 用 ， 
尤其 是 在 对 离散 型 时 间 序 列 的 处 理 中 。 

HMM 被 用 于 信号 处 理 已 经 有 30 多 年 的 历史 ,在 自动 语音 识别 等 方面 得 到 了 非 
常 成 功 的 应 用 。 目 前 ， 这 一 理论 的 研究 和 应 用 已 经 延伸 到 了 很 多 其 他 领域 : 特征 识 
别 系统 方面 ， 包 括 人 脸 识别 、 姿 态 手势 识别 、 字 迹 签 名 识别 等 ; 环境 科学 方面 ， 包 
括 风 向 、 降 雨量 、 地 震 预测 等 ; 金融 投资 方面 ， 如 每 日 收益 时 间 序 列 的 分 析 ; 等 等 。 
例如 ， 研 究 金融 市 场 收益 率 时 间 序 列 x, 的 分 布 。 根 据 市 场 收 益 率 发 展 形态 将 市 场 分 
为 牛市 和 熊市 两 类 ， 相 应 地 ， 观 测 值 也 就 被 分 为 两 组 。 在 每 个 分 组 中 市 场 收 益 率 的 
分 布 可 能 都 服从 正 态 分 布 , 但 所 有 时 间 范 围 内 的 收益 率 x, 就 不 一 定 服从 正 态 分 布 
了 。 也 就 是 说 , x, 可 能 只 是 局 部 服从 正 态 分 布 ， 而 整个 分 布 也 许 需 要 几 个 分 布 组 成 
的 混合 分 布 模型 来 表示 。 其 中 ， 不 可 观测 的 、 代 表 收 益 率 所 属 牛 市 或 熊市 组 别 的 变 
量 即 为 状态 变量 ， 该 状态 变量 服从 马尔 科 夫 过 程 ， 且 该 状态 变量 所 决定 的 个 别 正 态 
分 布 生成 了 HMM 的 观测 值 х, ç 

HMM 的 主要 优点 就 在 于 所 使 用 算法 的 简洁 性 和 通用 性 ， 尤 其 是 对 其 中 的 参数 可 





@ 尽管 我 们 使 用 “隐蔽 马尔 科 夫 模型 ”一 词 ， 但 它 并 不 是 描述 这 些 模 型 或 类 似 模型 的 唯一 名 字 。 例 如 ， 
人 们 也 可 能 经 常 使 用 以 下 名 称 来 描述 此 模型 :“ 隐 项 马尔 科 夫 过 程 ” “独立 的 马尔 科 夫 混合 模型 ” “马尔 科 夫 转 
dedos" “服从 马尔 科 夫 状态 转换 的 模型 ”或 “马尔 科 夫 混合 模型 " 。 
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(| await, ETID R AR HIS S 


以 直接 求解 。 
本 章 将 对 HMM 及 其 用 途 进行 简要 的 介绍 。 首 先 从 最 简单 的 情况 入 手 ， 对 状态 
序列 相互 独立 条 件 下 的 混合 分 布 模型 及 其 参数 估计 进行 分 析 。 


b 第 一 节 ”状态 序列 相互 独立 的 混合 分 布 模型 


对 于 大 多 数 的 样本 数据 而 言 ， 我 们 都 很 难 使 用 一 个 简单 的 、 标 准 的 泊 松 分 布 来 
进行 描述 。 这 是 因为 泊 松 分 布 的 分 布 函 数 是 p(x) = e™“A*/x! ， 它 的 均值 和 方差 都 
是 入 。 举 例如 图 4 -1， 假 设 样本 数据 的 方差 ~ 50 ,均值 * ~ 20 ， 方 差 比 均值 大 
很 多 ， 只 用 一 个 泊 松 分 布 来 表示 数据 的 生成 过 程 并 不 合适 。 图 中 各 点 描述 的 是 拟 合 
的 泊 松 分 布 ， 各 竖 线 表示 本 例 中 实际 数据 的 分 布 。 由 图 可 见 ， 两 个 分 布 相差 较 大 ， 
本 例 中 数据 的 分 布 并 不 能 只 用 一 个 简单 的 泊 松 分 布 来 表示 。 
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图 4-1 样本 数据 与 泊 松 分 布 拟 合 对 比 


0.00 
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但 是 ， 我 们 可 以 把 几 个 分 布 组 合 在 一 起 ， 形 成 一 个 混合 分 布 模型 ， 并 用 该 混合 
分 布 模型 来 解决 上 述 观 测 值 过 于 离散 的 问题 。 建 立 混 合 分 布 模型 能 够 把 数据 中 观测 
不 到 的 异 质 性 考虑 进来 。 比 如 说 ， 将 数据 分 成 差异 明显 的 若干 组 ， 每 组 观测 值 分 别 
服从 一 个 特定 的 分 布 。 

按照 这 样 的 思路 将 股市 收益 率 数据 通过 两 个 泊 松 分 布 来 表示 。 这 两 个 分 布 的 均 
值 分 别 为 A AA, ， 何 时 取 А, 或 A, 是 由 另外 一 个 随机 过 程 来 决定 的 。 假 设 取 А, 的 
WEA w, , WA, 的 概率 为 w = 1 -w 。 后 面 会 证 明 这 个 混合 分 布 模型 的 方差 比 均 
值 大 ， 二 者 的 差 为 wiw; (A, - А). 

如 果 一 个 混合 分 布 由 т 个 子 分 布 组 成 ,那么 混合 分 布 就 是 这 些 单个 分 布 的 线性 
组 合 ， 这 些 单个 分 布 可 能 是 离散 或 连续 的 。 在 由 两 个 分 布 组 成 的 混合 分 布 中 ， 这 个 
混合 分 布 取 决 于 两 个 概率 分 布 或 概率 密度 函数 pi(x) FI р, (x) o 

为 了 清楚 地 表示 混合 分 布 的 构成 ， 我 们 需要 一 个 离散 的 随机 变量 S 来 表示 单个 
分 布 在 混合 分 布 中 的 比重 : 
zz 选择 分 布 1 的 概率 为 u, 

2 ”选择 分 布 2 的 概率 为 w, 

由 这 两 个 相互 独立 的 子 分 布 组 成 混合 分 布 ， 假 设 蕊 表示 服从 该 混合 分 布 的 随机 
变量 ， 则 半 的 分 布 函数 为 X = p(x) w+P(z) w, ;的 期 望 值 和 方差 分 别 为 : 
E(X) = w,E(X,) + w,E(X,) = 0А, + w;À; 

Var(X) = А2 + w,A2 + ww, (A, = А,)? 

但 S 的 值 是 不 确定 的 ， 而 且 随 着 时 间 的 变化 而 变化 ， 也 就 是 说 我 们 不 知道 在 某 
个 时 点 上 混合 分 布 应 该 取 两 个 分 布 中 的 哪 一 个 。 图 4 -2 展示 了 由 两 个 分 布 组 成 的 混 
合 分 布 的 结构 。 此 例 中 , S, 的 值 表示 熊市 和 牛市 两 种 状态 ， 在 熊市 时 S,，= 1 ， 此 时 
观测 值 服从 分 布 p,(x) ; 在 牛市 时 5, = 2 ， 观 测 值 服从 分 布 p,(x) o 

很 容易 将 上 述 思 路 推广 到 混合 分 布 的 子 分 布 个 数 扩 大 到 m 的 情况 。 令 зо, "е о, 
分 别 代 表 每 个 子 分 布 被 选 出 的 概率 , р, ,… ,p。 代表 各 自 子 分 布 的 概率 分 布 , X 表示 由 
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(| EES: 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方法 


这 m 个 分 布 组 成 的 混合 分 布 的 随机 变量 。 


ӧ=075 8,0225 : P dd 2: = p(x) 





0 10 20 30 40 

e О | 14.2 
0 10 20 30 40 

O ө : айй ise 29.4 
0 10 20 30 40 

e О { í 5% 8.9 
0 10 20 30 40 

e О : A is 13.1 
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О ө 3 کي‎ aes 24.1 
0 10 20 30 40 

e О 3 a > 7.5 
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图 4-2 混合 分 布 的 结构 
如 果 开 是 连续 随机 变量 ， 则 大 的 分 布 函 数 为 p(z) = Y 5p,(z) ; 如果 XX 是 离散 


BEDE, REX MAER p(X = x) = p(X = xl S = Dp(S = 0), 
服从 混合 分 布 的 变量 的 期 望 可 以 由 各 个 组 成 分 布 的 期 望 表 示 出 来 ， 其 中 Y, 表示 
服从 分 布 p, 的 随机 变量 : 
E(x) = p(s ЕСЕГЕ = 5 = Y ови) (4.1) 
Var(X) = E(X) -E (X)? = wı Va(Y,) ou Va E,) + ww, (E(Y,) = Е(Ү,))? 
(4.2) 


Var(X) = E(X) - E(X)? 
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第 四 章 вело та 1. 


= шЕ(Ү№) + w,E(Y2) - [w,E(Y,) +wE(Y,)] 

= w(E(Yi) -E(Y,') +w, (EQ) -E (Y,)2) +w,E(¥,)? + uE ( Y, )2 
= w, E (У)? — w,?E(Y,) — 2u,w,E(Y,)E(Y,) 

= w,Var(Y,) + w,Var(Y,) +u (1 -w,)E(Y,)? +w,(1 -w,)E(Y,)? 
- 2w,w,E( Y, ) E( Y,) 

= w,Var(Y,) + w,Var(Y;) + w,w,E (У)? + ww,E ( Y, )2 
- 2w,w,E( Y, ) E(Y;) 


= w,Var(Y,) + w,Var(Y,) + w,w, (E(Y,) = E(Y,))? 


多 第 二 节 ”状态 相互 独立 混合 分 布 的 参数 估计 


通常 用 极 大 似 然 法 来 估计 混合 分 布 中 的 参数 。 对 于 一 个 由 m 个 分 布 组 成 的 混合 
BAR, 无论 它 是 离散 的 还 是 连续 的 ， 都 有 : 

L(8,,:,0,,w, قو وة | پا‎ = П 并 png) (4.3) 

其 中 , 9 ，…,6。 分别 为 组 成 混合 分 布 的 m 个 分 布 的 分 布 参数 ; Wy ,… ,Ww 分 别 为 

т 个 分 布 被 取 到 的 概率 ， 其 和 为 1; x ,…,x, 代表 个 样本 观测 值 。 如 果 这 т 个 分 布 

都 分 别 只 含有 一 个 参数 ， 那 么 共有 2m - 个 待 估 参数 ,包括 mn 个 9 和 mm-1 个 w。 

但 上 式 并 不 容易 用 极 大 似 然 法 来 予以 估计 。 比 如 ,假设 混合 分 布 由 两 个 独立 的 

泊 松 分 布 组 成 ， 均 值 分 别 为 A! 和 A，， 被 取 到 的 概率 为 ш, Aw, ， 则 混合 分 布 的 分 


š Aie Aie? Me" 
HARON р(х) = WwW, РТ + w, E = и 











о 


Ae 22 
*(l-,) 2 
x! x! 


此 时 ， 只 有 A, . A, 和 101 三 个 待 估 参 数 。 极 大 似 然 函数 为 : 


x! 


Afie Age 2 
+ (1 -w,) 
x;! 








L(À,,À5 wj | DIES у = П Cv ) 
i=l 


0,1 


极 大 似 然 函数 L(A ,A; ,wi1 zx,… ,x,) Hi n MARRE, hi REM WAE ВОЈ 
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式 ， 所 以 等 式 两 边 取 对 数 并 不 能 使 问题 得 到 简化 。 此 时 ， 有 两 种 方法 来 解决 这 个 问 
ii. 一 种 是 数值 解法 ， 另 一 种 是 EM 法 。 


D 第 三 节 ”简单 隐蔽 马尔 科 夫 模型 


在 前 面 的 分 析 中 ， 我 们 假设 每 一 个 观测 值 都 是 由 m 个 泊 松 分 布 中 的 一 个 随机 产 
AE, k m 个 泊 松 分 布 的 均值 分 别 是 Ay ,Xs,…, 和 A。， 而 均值 A, 发 生 的 概率 为 wi(i = 


1.2,…,m) ,并且 Yr, = 1 。 以 此 建立 的 混合 模型 解决 了 方差 过 度 分 散 的 问题 ， 
但 是 这 种 简单 的 状态 序列 相互 独立 的 混合 模型 并 不 能 够 解决 观测 值 之 间 相互 依赖 的 
情况 ， 放 宽 独 立 性 假设 是 解决 序列 自 相 关 的 一 个 办 法 。 为 了 简化 问题 ， 人 们 通常 都 
假设 状态 服从 马尔 科 夫 过 程 ， 这 种 模型 就 叫做 泊 松 - 隐 项 马尔 科 夫 模型 。 
假设 分 布 取决 于 从 第 1 期 到 第 t 期 不 可 观测 的 状态 变量 序列 S1 ， 并 根据 S 所 确 
定 的 分 布 来 产生 X, 。 隐 项 马尔 科 夫 模型 可 以 表示 为 ; 
P(S, | $r*) = PCS, | S. ү) к= 2,3, (4.4) 
P(X, XSi) = P(X,I S) teN (4.5) 
该 模型 有 由 两 部 分 组 成 :一 部 分 是 不 能 被 观测 到 的 状态 过 程 |5,:1 = 1,2,…| ， 
该 过 程 满足 马尔 科 夫 性 ; 另 一 部 分 是 状态 依赖 变量 X = 1,2,…| 。 第 二 个 式 子 
表示 ,依赖 于 状态 变量 S, 。 当 8, 已 知 时 , X, 的 分 布 只 依赖 于 当前 的 状态 5,, 5Z 
前 的 状态 ST 以 及 观测 值 XU! 无 关 。 
图 5 -3 展示 了 隐蔽 马尔 科 夫 模型 产生 随机 观测 值 的 过 程 ， 其 中 取决 于 状态 的 子 
分 布 为 p, 和 ps ， 这 两 个 分 布 m I p, 被 分 配 到 的 概率 为 w = (0.75, 0.25) ， 同 时 状 


0.9 0.1 
stone r = | | 与 独立 混合 情形 相 比 ， 这 里 5, 不 再 独立 于 S-，， 而 是 
0.3 


0.7 
依赖 于 S,- o 
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Bl4-3 两 状态 隐蔽 马尔 科 夫 模型 随机 产生 的 观测 什 
注 ， 如 图 左 侧 所 示 ， 这 个 隐蔽 马尔 科 夫 链 按照 状态 2，1，1，1，2，1 的 路 径 演化 ， 图 中 间 表 示 了 给 定 状 
态 下 的 分 布 ， 图 右 侧 的 观测 值 由 状态 所 决定 的 分 布 产生 。 
下 面 我 们 考虑 离散 的 情况 ， 定 义 如 下 变量 : 
p(x) = p(X, 2xlS, =i) ,i =1,2,-+,m 
其 中 , p, 指 当 马 尔 科 夫 链 X, Et RA i 下 的 概率 分 布 函 数 。 连 续 的 情况 也 是 
相似 的 ， 定 义 p; 为 马尔 科 夫 链 X, 在 t 期 、 状 态 i 下 的 概率 密度 函数 。HMM 状态 依赖 
分 布 模型 就 是 指 m 个 单独 分 布 p; 组 成 的 混合 模型 。 
为 了 方便 起 见 ， 我 们 仅仅 给 出 离散 的 状态 依赖 型 分 布 的 结论 ， 连 续 情形 下 的 结 
论 也 可 以 用 类 似 的 方法 得 到 。 对 于 离散 型 变量 X(t = 1,2,…,7T) ,定义 w(t) = 
P(S, =i), MW; 


Р(Х.) = Y P(X, = | S, PCS, =) = 3 (я) ш(0) (4.6) 


该 式 可 以 被 写成 矩阵 的 形式 如 下 : 
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pix) 0 1 
Р(Х,) = (u(t) зш) з, 0; | = u(t)P(x)1' (4.7) 
Ü plaj) 

其 中 , Р(х) 定义 为 对 角 线 元 素 为 p, (x) 的 对 角 和 矩阵 。 从 前 面 我 们 可 知 u(t) = 
u(1)T ,因此 可 得 : P(X,) = u(1)T^ P(x)1’。 

上 式 要 求 当 马 尔 科 夫 链 是 齐 次 的 ， 但 不 要 求 稳 态 性 。 如 果 我 们 假设 马尔 科 夫 链 
是 稳 态 的 ， 且 其 稳 态 分 布 为 8 ， 上 述 表达 形式 将 会 更 加 简单 : 

对 于 任意 的 ! e M,a = 6 ,因此 P(X,) = 8P(x)1' 。 (4.8) 

如 前 所 述 ， 与 HMM 相关 的 多 变量 分 布 计算 很 简单 。 在 任何 给 定 的 模型 下 ， 一 
组 随机 变量 V, 的 联合 分 布 如 下 所 示 : 





1 


P(V,, V, V.) = ПРО! pa(V,) ) (4.9) 
Ж ра(У,) FX VIRI (Parent), 3x — Elie rP BUS 328 V, 所 依赖 的 信息 集 。 
XPTGESENE k, ЖЕ X, Xar S S, I 这 四 个 随机 变量 的 逻辑 关系 , ра(5,) 是 空 
集 , pa(X,) = [S,} , pa( S44) = 1S,| , pa(X,,) = 1S.) 。 因 此 可 得 到 下 式 : 
P(X,,X,4,9,8,) = P(S,)P(X, I S)P(S, E S)P(X 1 Sa) (4.10) 
所 以 有 : 


P(X, = V, X, sk = w) 2 > > Р(Х, = 0X44 = w,S, = i, Sisk = J) 


i=l j=l 


= Y > Pts, = i)p;(v) P(S,, = j| S, = i)p(w) 


t+k 


= У, Yaar (Dp () (4.11) 
将 上 述 求 和 过 程 写成 矩阵 乘积 形式 : 
Р(Х, = v,X,, = ш) = u(t)P(v)T'P(w)1' (4.12) 
如 果 马 尔 科 夫 链 是 稳 态 的 ， 则 上 式 可 化 简 为 : 
P(X, = v,X,, = w) = 6P(v)I"P(w)1’ (4.13) 


在 稳 态 马尔 科 夫 链 的 情况 下 ， 三 变量 分 布 的 公式 如 下 所 示 : 
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P(X, = 0,X,,, = w,X = z) = ёР(ъь)Г*Р(ш)Г'Р(а)1' (4.14) 
由 上 述 结果 可 知 : 
E(X,) = X EK | S, = i)P(S, =i) = Y aE | S,=i) (4.15) 
在 稳 态 条 件 下 ， 上 式 可 以 化 简 为 : | 
E(X,) = Y a(x, | S, = i) (4. 16) 
由 上 述 公式 可 以 推导 出 处 于 稳 态 条 件 下 两 状态 泊 松 — 隐蔽 马尔 科 夫 模型 的 计算 
公式 为 : 
E(X,) = 81A, + 8۸» 
在 一 般 情 况 下 ， 对 于 状态 存在 相关 性 的 任意 函数 E 的 期 望 ， 关 于 E(g(X,)) 和 
E(g(X,,X,,)) 的 类 似 结论 依然 存在 。 在 稳 态 马尔 科 夫 链条 件 下 : 


E(g(X,)) = 2, SE (e(X,) | C, =i) (4.17) 
E(e(X,,Xa)) = Y EGO | C, = D&D, (8) (4. 18) 
其 中 , Tj(k) = (Ty, k e N. BH, 对 于 能 拆 分 成 B(X,,X,u) = 


e OG Oc) 的 函数 g ， 上 式 等 价 于 ; 
E(z(X,,X..)) = Y EG Q0 1 C, = EGG QU) Са = 5T, 


(4. 19) 
由 上 述 公 式 可 以 推导 出 协 方差 、 相 关系 数 的 计算 公式 。 比 如 ， 稳 态 条 件 下 两 状 
态 泊 松 - 隐蔽 马尔 科 夫 模型 的 计算 公式 为 : 
Var(X,) = E(X,) + 8,8; (A, - А)? > E(X,) 
Cov (XX) = 5,8; (À, — A)? (1 = Ty = Га)" 
注意 : 这 里 X, 和 ,的 协 方差 公式 是 p(k) = 4(1 - Pa = Га)“ 的 形式 ， 其 中 4 
e [0,1) ， 且 当 M =A, BH, A = 0, 
下 面 ， 针 对 稳 态 条 件 下 两 状态 泊 松 - 隐蔽 马尔 科 夫 模型 ， 我 们 来 推导 混合 方差 
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的 公式 Var(X,) = E(X,) + 5,5, (А, - ۸1) o 
具体 推导 过 程 如 下 : 
X, = 6,X, + 6X, 
E(X,) = 6,A, + &À; 
g(x,) = [X, - E(X,)]2 = [X, - GA + SAT 
{в(х,)1 С, = 1| 


[Х„-Е(Х,)]* 


I 


= [X,, = (8,4, + 5,А,) ]° 


= [ (X, -A, +(1-6,)A, - ôA) ]° 





= [(X, - À) + 8(4, - A,)]* 

= (X,,-A,)? «2(X, -А,)ё,(А, - 43) + ë (4, - A5)? 
Elg(x)! C, = 1| 

= E{(X,, 41) *2(X, – A)6 (A; - À) + H(A, - Az)? | 

= E(X,,-A,)? +2E| (Xn —A,)6,(A, - A.) | +ë (A, - A;)? 

= ( =A)? +ë, (А, - az)’ 

=A, +ë (А, -A,)’ 


类 似 可 得 ,Elg(x)1C, = 2} = А, +8 (A, - A^ © 


所 以 Var(X,) = E(g(X,)) = У SE(e(X,) | С, = i) 
=ó Elg(x,)! C, =1} *&Elg(x)1 C, = 2} 
= 6,[A, + 5; (A, -A,)7] +5,[A, + 5; (A, -A,)*] 


= (8,4, + ó;À;) + 6,5; (A, -A)! + 8,0, (A, -A,)’ 


E(X,) + 8,8; (А, - ۸2) 
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假设 隐蔽 马尔 科 夫 模型 有 m TRS, 并 产生 7 了 个 连续 的 观测 值 x ,xz ，…,x7r ， 
本 节 将 讨论 如 何 求 得 该 观测 值 序列 的 似 然 函 数 Lr, 。 从 直观 来 讲 ， 这 个 似 然 函 数 的 计 
算 包 含 m 个 和 项 ， 其 中 每 一 项 是 27 个 因子 的 乘积 ， 所 以 需要 处 理 Tm” 的 同 阶 量 次 
的 运算 问题 ， 而 实践 证 明 这 样 直接 计算 似 然 函数 几乎 是 不 可 行 的 。Baum (1972) 等 
人 研究 证 明 用 夫 代 的 办 法 能 够 使 上 述 似 然 函 数 的 计算 可 行 。 

如 果 似 然 函 数 可 以 用 简单 的 形式 表达 ， 我 们 就 能 够 通过 最 大 化 似 然 函数 来 估计 
参数 。 下 面 ， 我 们 来 说 明 似 然 函数 L, 相对 于 m T 同 阶 量 次 运算 是 可 计算 的 。 

首先 ， 我们 探究 两 状态 隐蔽 马尔 科 夫 模型 的 似 然 函 数 ， 然 后 再 将 其 推广 到 更 为 
一 般 的 情况 。 考 虑 具有 如 下 转换 矩阵 的 两 状态 隐蔽 马尔 科 夫 模型 : 


1 2 

3 3 
ТГ = 

1. X 

4 4 


且 给 定 状态 下 的 分 布 函数 为 : 
PIX = sl 8 = 1) = 二 ,x - 81 
P(X, 2118, =2) =1 
我 们 将 上 述 模型 称 为 伯 努 利 隐 项 马尔 科 夫 模型 。 在 该 例子 中 马尔 科 夫 链 的 均衡 
状态 为 5 = 13,4) , WX, = X, = X, = 1 的 概率 可 以 被 写成 如 下 形式 : 


P(X,,X,,X,,8,,9,,9,) = PCS,)P(X, | $,) PCS, 1 5,)Р(Х, | S; PCS; | S,)P(X, | 5,) 
(4. 20) 


对 S, وکر‎ ;Ss 求 和 可 得 : 
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P(X, = LX, 21,4, = ly = > ; P(X, = 1,X, = LX, = 1,9, 21,5, 57,8, = k) 
i=l j=l k=l 
2 2 2 


> j=1 kel 
从 上 式 可 知 ， 有 m = 2° 项 ， 其 中 每 一 项 都 是 27 = 2 x 3 项 的 乘积 。 
用 矩阵 表示 上 述 和 的 形式 将 会 更 加 简便 。 定 义 PQu) 为 对 角 线 元 素 为 (pi (4)， 


p,Cu)) 的 对 角 和 矩阵 ， 即 : 


1 1 

— 0 — 0 
P(0) ih | P(1) ih | 

0 0 0 1 


从 而 上 式 可 以 被 表达 为 : 


У У X юр DTrop (DT!) = юР(1)ГР(1)ГР(1)1' — (4.22) 

下 面 我 们 来 讨论 隐 项 马尔 科 夫 模型 似 然 丽 数 的 一 服 形式 。 

假设 隐蔽 马尔 科 夫 模型 有 普 个 状态 ， 初 始 分 布 为 w ， 转 换 矩 阵 为 ， 观 测 值 在 
给 定 状 态 :条 件 下 的 概率 密度 函数 为 疡 的 ， 生 成 的 一 列 观察 值 为 ,x,,… ,x+ ， 我 们 
的 目标 是 求 得 产生 该 序列 的 概率 Lr 。 

首先 证 明 隐 英 马 尔 科 夫 模 型 似 然 函数 是 如 下 形式 : 


w;p, C1) jp; CI) Tap.) (4.21) 


L; = wP(x, )FP(x,)EP(x,):*-TP(x;)1" (4. 23) 
如 果 S, 的 分 布 w 是 稳 态 马尔 科 夫 链 的 稳 态 分 布 6 , BBA: 
L; = 6PP(x, ) ГР( х, ) ГР( х; ) -::ГР(х,)1' (4. 24) 


在 证 明 上 述 问 题 之 前 ， 我 们 需要 定义 一 个 新 的 矩阵 B, = ГР(х,) 来 重新 表述 这 
个 问题 。 所 以 以 上 两 式 可 以 分 别 被 写作 : 
L, = wP(x,) BB,--:B,1' (4.25) 
L, = 8B,B,B,---B,1' (4. 26) 
具体 的 证 明 过 程 如 下 〈 仅 介绍 离散 情况 ) : 


首先 ， Ls = P(x = a) = Y Р(Х“? == x C SO - s) š 
ae ee | 


通过 前 面 的 分 析 ， 我 们 可 以 得 到 : 
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T T 
Р(Х“) S) e P(S,) II^ cs! $14) ПР 5,) 
22 k=l 
并 得 出 : 


Lr = : x. Us Ys s Yos Yrs) (Ps, (x, ) Ps, (x5) “ps, (хт) ) 
m m 


a x _ iP (х1) Ys, s Ps, (%2) Ys, s "Ys, Ps, (Xr) 
- Ole NOIR JO 
如 果 w 是 稳 态 马尔 科 夫 链 的 稳 态 分 布 s ， 则 有 6P(x,) = STP(x,) = óB, , Alt 
可 知 ， 上 式 虽 然 多 了 一 项 工 ， 但 几乎 没有 影响 。 


为 了 给 出 似 然 函 数 计算 方法 ， 我 们 来 定义 向 量 矿 : 
£ = wP Ce, TPCT PCy) TPU) = ара) [TIP , 2 = 12,7, T 


(4. 27) 

由 此 ， 我 们 则 可 以 得 出 如 下 方程 : 

L.sfd', Bt = DHF = fTP(x,) 。 (4.28) 
基于 以 上 表达 方式 ,我们 可 以 方便 地 对 似 然 函 数 进行 求解 ， 具 体 算法 如 下 : 

Mt = 1 时 ,fi = Р(х) 

Bi: = 2,3... T BF, f, = f TP(x,) o 

通过 迭代 最 终 得 到 二 = fil. 

从 以 上 算法 可 知 ， 向 量 /, 与 状态 转移 矩阵 工 的 乘积 共 运算 m 次 , fT 再 与 
P(x,) 的 乘积 共 m 次 。 因 此 ， 两 者 共 运 算 m 次 。 由 于 我 们 的 算法 是 由 上 = 12, T 
的 递归 算法 ， 所 以 求解 似 然 函数 的 运算 次 数 是 Tm 次 。 换 句 话说， 对 于 递归 循环 中 
的 每 一 个 +， 我 们 需要 计算 向 量 f, 与 状态 转移 和 矩阵 TT 的 乘积 ， 这 需要 运算 m 次 ; 
然后 ， 再 用 此 结果 (AAT) 中 的 m 个 元 素 去 乘 以 状态 依赖 概率 向 量 PC) ， 这 样 就 
需要 运算 m x m 次 。 因 此 ， 共 需要 计算 Tm ¢ 

最 后 ， 我 们 来 讨论 数据 缺失 的 情况 下 如 何 对 似 然 函 数 进行 调整 的 问题 。 在 HMM 
中 ， 可 以 通过 对 似 然 函 数 进行 简单 调整 来 处 理 数据 缺失 问题 。 假 设 一 个 HMM 有 观 
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HE. x, ,zx ,xs ,xz7 ,xs ，… ,xr ， 但 是 x5 ,xs xg 这 几 个 数据 是 缺失 的 ， 则 有 似 然 函数 : 
P(X, = Apk = xX,,X4, = X,,X, 5% ,+#+ , Ap = Ky) 
= У, us Ysi, syss, (2)ys,s, (Ys, ssr sr X Ps, (%1 Ps, (%2 Ps, (xa Ps, 0) Ps, (xr) 
(4. 29) 
其 中 y; (k) 表示 大 阶 转换 概率 ， 总 和 包括 除了 S,,S;,S, 以 外 的 所 有 的 5, 。 因 为 


> Ws, Ps (x, )ys, SPs, (x, ) уз, 5, (2 )Ps, (х, )Уз, „в, (3 )Ps, (ж) “Узуу.зтРзу\ Xr) 


= 0Р(х,)ГР(х,) Г?Р(х,) ГР(х,) ---TP(x,)1' (4. 30) 
FH L;O79 代表 除了 os ,xs ,x6 以 外 的 所 有 观测 值 的 似 然 函数 ， 所 以 : 
L;059 = P(x, )TP(x,)I?P(x, )T? P(x, )---TP( xp) 1 (4.31) 


这 个 结论 意味 着 ， 似 然 函 数 中 与 缺失 变量 相对 应 的 对 角 和 矩阵 P(x,) 被 单位 矩阵 
所 替换 。 也 就 是 说 ， 相 应 的 概率 p;(x,) 在 所 有 状态 中 全 部 用 1 代替 了 。 由 此 可 见 ， 
即使 存在 缺失 数据 ，HMM 的 似 然 函数 也 可 以 很 容易 计算 ， 这 在 条 件 分 布 的 推导 中 非 
常 有 用 。 

假设 在 隐蔽 马尔 科 夫 模型 的 一 系列 观测 值 中 ， 有 部 分 观测 值 是 区 间 型 的 。 比 如 ， 
可 能 仅仅 能 确定 当 4 <: < Tit x, 的 真实 值 ， 以 及 x, S 15 ,20 = x, 三 30 , x, > 100, 
在 这 种 情况 下 ， 可 以 将 似 然 函数 中 的 对 角 和 矩阵 Р(х) 替换 为 矩阵 : 

P(X, €151 S, = 1) 0 
0 P(X, € 151 S, = 2) 

同 理 ， 可 替换 P(x,) FI P(x) 。 更 一 般 地 ， 假 设 e < x, < d ， 马 尔 科 夫 链 可 能 
有 mm 个 状态 。 可 以 通过 用 т x m 阶 对 角 线 元 素 为 P(c = x, < dl S, = 1) 的 对 角 和 矩阵 
替换 似 然 函 数 中 的 PC). 。 对 于 缺 省 值 ， 也 可 以 将 其 视 为 区 间 型 变量 来 进行 处 理 。 
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—— E 
EPLET EEES 
函数 估计 方法 


从 前 面 的 分 析 中 可 以 知道 ， 如 果 马 尔 科 夫 链 是 稳 态 的 ， 那 么 对 于 稳 态 分 布 5 来 
说 有 5 = 6T。 对 于 t = 1,2,…, 了 我 们 有 以 下 递归 算法 : 
f = 8 
А = fiaTP(%,) (5.1) 
根据 上 一 章 内 容 ， 在 平稳 条 件 下 共 需 要 Tm 次 运算 即 可 求 得 似 然 函数 。 因 此 ， 
即使 7 很 大 ， 对 似 然 函数 的 估计 也 是 可 行 的 。 这 样 ， 我 们 就 可 以 通过 数值 算法 来 解 
似 然 函 数 最 大 化 问题 ， 并 在 此 基础 上 直接 估计 参数 值 。 
但 是 ， 直 接 使 用 这 种 数值 算法 会 遇 到 一 些 问 题 。 主 要 问题 包括 : ME Pu. 2 
数 取 值 范围 约束 、 似 然 函 数 极 值 点 不 唯一 ， 等 等 。 本 章 将 首先 讨论 怎样 克服 这 些 问 
题 ， 以 便 使 用 简便 的 递归 数值 算法 去 估计 极 大 似 然 函数 值 ; 然后 ， 在 引入 前 向 和 后 
向 概率 的 基础 上 ， 讨 论 参 数 估计 的 EM 算法 。 
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ф 第 一 节 ”数值 算法 


在 观测 值 离散 的 情况 下 ,f 中 的 元 素 可 以 表达 成 概率 乘积 的 形式 ， 并 随 着 上 的 增 
加 不 断 减 小， 逐渐 接近 于 0。 鉴 于 与 似 然 值 的 关系 ， 似 然 函 数 可 能 以 指数 速度 趋 
向 于 0 或 者 无 穷 。 这 种 数值 溢出 并 不 仅 局 限于 离散 分 布 的 下 溢 问 题 ， 也 可 能 会 出 现 
于 连续 分 布 的 上 洲 问 题 。 无 论 上 溢 还 是 下 洲 ， 人 处理 的 方式 并 无 太 大 区 别 ， 因 此 我 们 
仅 以 下 溢 为 例 来 展开 讨论 。 

似 然 函 数 是 转移 矩阵 元 素 与 向 量 乘积 之 和 ，HMM 似 然 函 数 的 计算 要 比 独立 混合 
模型 似 然 函 数 计算 复杂 得 多 ， 因 此 不 能 仅仅 依靠 对 似 然 函 数 取 自然 对 数 的 方法 来 避 
免 数值 下 溢 问 题 。 为 了 解决 这 个 问题 ，Durbin 等 人 (1998) 提出 了 基于 以 下 近似 计 
算 的 一 种 方法 : 

假设 w > v ， 我 们 希望 计算 In(u +v), RAA: 

Inu + In(1 +v/u) = Inu + In(1 + exp(? - à)) 

Дт п = Inu ,5 = Inv 。ln(1 +e") 可 通过 插值 法 估计 ， 并 通过 参照 取 值 表 把 估 
计 精 度 提高 到 一 个 合理 的 范围 。 

下 面 通过 对 前 向 概率 J 进行 加 权 的 方法 来 计算 Lr o 

对 于 1 = 0,1,…,7T， 定义 加 权 前 向 概率 向 量 为 : 


а, = f/p, (3.2) 
其 中 , р, = LAG) = fl’ (5.3) 
首先 ， 由 a, Mp, 的 定义 可 以 直接 得 到 : 
f, = (f/pi)p, = ор, (5.4) 
fa «apa 


BC, f, = fa TPC) 可 以 写作 : 
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ap, = o, p, B, (5.5) 
这 样 ， 我 们 的 算法 由 8 计算 得 到 pe May ， 并 通过 不 断 迭 代 求 得 Lr : 

p, =fol’ = б1' =1 

a, = 8 

риа, = p, уо, B, 


L, = pr(arl’) = pr 


Bist, Lr = pr = TI (pp) (5.6) 

Ұра, = p, ,o, ,B, 式 两 边 同 时 乘 以 1' 可 得 出 : 

Pi = p, a (a, , B1!) (5.7) 

从 上 式 ， 我 们 能 得 出 : 

InL, = Y nop. - У (ава) (5.8) 

Г f P(x,) 是 m ЕВЕ, В, = ГР(х,) 。 上 述 对 数 似 然 函数 lnLr 的 计算 可 以 直接 
纳入 到 下 面 的 递归 算法 中 。 初 始 值 hh = 6 , h。= 0 。 对 于 1 = 1,2,…7 ,循环 计算 以 
ТЖ: 0, = QjTP(%,) ; ш = vl' ; h, = h, + Inu, зо, = w/v,。 这 样 最 后 求 得 的 
hy BI InL, o FEF, h, 是 累计 对 数 似 然 函 数 的 标量 ， 相 当 于 p/p o v Fil a, ZE m HE 
HE, и 是 标量 。 这 个 过 程 能 在 很 多 情况 下 避免 下 溢 问 题 。 

在 泊 松 - 隐藏 马尔 科 夫 模型 中 ， 转 移 矩 阵 工 和 泊 松 分 布 参数 向 量 À 的 元 素 是 有 
非 负 约束 的 。 比 如 ,FT 的 每 一 行 元 素 之 和 都 应 等 于 1。 因 此 ， 当 我 们 对 似 然 函 数 进 
行 估计 时 ， 就 需要 解决 有 约束 条 件 的 最 优 问题 ， 而 不 是 无 约束 条 件 的 最 优 问题 。 这 
个 问题 我 们 已 在 上 一 章 进行 过 讨论 。 

HMM 的 似 然 函 数 是 一 个 关于 多 个 参数 的 复杂 方程 ， 常 常 含有 多 个 局 部 极 值 。 我 
们 的 目标 是 找到 似 然 函数 关于 参数 总 体 的 最 值 ， 但 是 并 没有 一 个 判断 最 大 化 算法 是 
否 已 经 达到 总 体 最 优 的 方法 。 由 于 算法 依赖 于 初始 值 的 设 定 ， 因 此 所 得 到 的 局 部 最 
优 值 很 有 可 能 不 是 总 体 最 优 值 ， 后 面 将 要 介绍 的 EM 算法 也 会 出 现 这 种 问题 。 因 此 ， 
可 以 考虑 使 用 多 个 初始 值 ， 并 观察 在 不 同情 况 下 出 现 的 最 优 值 是 否 相 同 。 
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对 HMM 的 某 些 参数 来 说 ， 找 到 比较 恰当 的 初始 值 是 不 难 的 。 例 如 ， 估 计 两 状 
态 泊 松 - 隐蔽 马尔 科 夫 模型 时 ， 若 样本 方差 为 5， 则 可 以 尝试 4 和 6 或 者 3 和 7 作为 
两 个 状态 均值 的 初始 值 。 此 外 ， 基 于 分 位 数 的 估计 策略 也 是 可 行 的 。 例 如 ， 如 果 模 
型 有 三 种 状态 ， 可 以 将 样本 的 上 分 位 数 、 中 位 数 、 下 分 位 数 作为 三 个 状态 均值 的 初 
始 值 。 


DROW EM 算法 


一 、EM 算法 介绍 


对 HMM 似 然 聘 数 进行 估计 比较 有 效 的 方法 是 EM 算法 ， 用 这 种 算法 时 我 们 需 
要 用 到 向 前 概率 和 癌 后 概率 ， 后面 章节 中 解码 和 状态 预测 的 内 容 中 也 会 用 到 这 两 种 
概率 。EM 算法 也 被 称 为 Baum - Welch 算法 ， 用 于 齐 次 马尔 科 夫 链 的 HMM 的 参数 
估计 ， 并 不 要 求 马尔 科 夫 链 一 定 是 稳 态 的 ， 因 此 并 没有 假设 5 = 6 。 因 此 ， 除 了 给 
定 状 态 下 的 分 布 所 含 参数 À 和 转移 矩阵 工 ， 这 种 算法 也 要 估计 初始 分 布 w 。 
根据 式 5. 1 我 们 定义 行 向 量 f 如 下 : 
f, = wP(x,)TP( )*-TP(x,)) = uP(x,) [I rP.) (5.9) 
其 中 1 = 1,2,…,7 ,w 表 示 马 尔 科 夫 链 的 初始 分 布 。 我 们 已 经 给 出 前 向 概率 /中 
元 素 ， 但 并 没有 对 此 给 出 详细 说 明 。 本 节 内 容 将 表明 的 第 7 个 元 素 上 (7) 确实 是 一 
个 概率 函数 ， 而 且 联 合 概 率 是 P(X, = x1,X, = x,,X, = x,,S, = j) o 
我 们 也 需要 用 到 后 向 概率 6, : 
b', = ГР(х,.)ГР(х)+ГР(ху)1' = (Пг) (5. 10) 


t = 了 时 定义 br = 1, KRE, bU) 的 第 j 个 元 素 5,(j) 也 是 一 个 条 件 概率 ， 表 示 
PUK ai = Bar Anse = Kraay Ap = xr | S, =j) o 基于 以 上 分 析 ， 我 们 可 以 得 到 : 
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KG) G) = P(X = x1,S, = j) (5. 11) 
根据 前 面 公式 5. 1 已 经 给 出 的 定义 /= ATP) , f. i) 具体 表达 式 为 : 


fa) = CA GO ry (xa) 


Df) raja) 


- > РОХ\ ‚5, = i) -P(S =j! S, 81)POL, = %1 Sa my) 
= > PLX ,S, = L, Sn =j) 
i=l 

= 已 ( ,S,, = J) 

xT: = 1,2, T fJ = 1,2 و‎ п , 我 们 可 以 得 到 下 面 的 结论 : 
ЛО) = P(X, =xi3 = j) (5.12) 
同样 道理 ， 根 据 之 前 也 已 经 给 出 凡 的 定义 可 知 : 
b, = TP(x,4)b,,, 


可 以 同样 得 到 下 面 的 结论 : 
b(i) = Р(Х, = Xe = xa," 3S = ü) 
b, (i) = P(XL, = 27,1 S, =i) (5. 13) 
我 们 将 EM 算法 运用 到 HMM 中 ， 得 到 : 
AGO G) = Р(Х = 21,8, = i) 
因此 ， 对 每 个 :， Aap = Р(Х = а) = Lr 。 这 是 因为 : 
Ly = 8P(x, )EP(x,) -TP(x,)EP(x,  )TP(x, 4):-TP(x,)1' = o, 
基于 以 上 对 Lr 的 分 析 ， 我 们 可 以 得 到 如 下 结论 : 
P(S, = jl = x() = e OR, (5.14) 
PiSu = 3.5, = #1 Жу = si) = argu GB GV, (5. 15) 
由 HMM 中 状态 变量 虽然 服从 马尔 科 夫 过 程 ， 但 无 法 被 观察 到 ， 所 以 在 HMM 2 
数 估计 中 ， 人 们 常常 会 把 这 些 状态 当 作 缺失 数据 ， 然 后 采用 EM 算法 来 找到 参数 的 
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极 大 似 然 估 计 。 事 实 上 ， 开 创 性 的 工作 是 由 复兴 科技 的 Leonard Baum 等 人 在 20 t 
纪 70 年 代 初 期 完成 的 ，Dempster (1977) 等 人 在 其 基础 上 展开 了 进一步 的 研究 。 

当 一 些 数据 丢失 时 ，EM 算法 能 够 用 和 欠 代 方法 来 进行 最 大 似 然 估 计 ， 也 就 是 说 ， 
EM 方法 不 是 简单 地 使 可 观察 值 的 似 然 函 数 最 大 化 ， 而 是 使 弥补 了 不 可 观测 数据 后 
的 完整 数据 的 对 数 似 然 函 数 (CDLL) 最 大 化 。 完 整数 据 的 对 数 似 然 函 数 是 在 观察 
值 和 缺失 数据 基础 上 ， 并 且 含有 参数 9 的 对 数 似 然 函 数 。 


二 、EM 算法 具体 步骤 


1. 选择 参数 9 的 初始 值 。 

2. 基于 观察 值 和 当前 估计 值 0 ， 计 算 缺 失 数据 的 条 件 期 望 值 ， 即 计算 出 CDLL 
中 缺失 数据 的 条 件 期 望 。 

3. 把 CDLL 中 的 缺失 数据 用 条 件 期 望 替代 ， 进 行 极 大 似 然 估 计 。 

4. 重复 步骤 2、3 的 操作 直到 一 些 收敛 性 判断 成 立 ， 比 如 直到 6 收敛 为 止 。 

此 时 的 9 就 是 似 然 函数 的 最 优 解 。 在 某 些 情况 下 ， 这 个 最 优 解 可 能 只 是 一 个 局 
部 最 大 值 或 鞍点 。 

EM 算法 的 关键 理念 不 仅仅 是 强调 CDLL 中 缺失 的 数据 本 身 由 它们 的 条 件 期 望 
值 取代 ， 更 为 重要 的 是 含有 这 些 缺 失 数据 条 件 期 望 的 CDLL 函数 。 

在 HMM 中 ， 人 们 经 常用 0 -1 变量 来 描述 马尔 科 夫 状态 序列 , 5, зз, sr: 

u(t) 21, ЧАА S, = ja 

v(t) 21, 4H4S,, = 7 并且 S, =k, 

HMM 的 完整 数据 对 数 似 然 函数 CDLL， 也 就 是 由 观察 值 *, ,x;,…, x, AURA RY 
据 51, 52, 777, Sp 组 成 的 似 然 函 数 ， 可 以 写成 : 


T 


In( P(x) ,si)) = In( w,. [I y... П>. (х)) 


1=2 П 
т Т 
= Inw, + X пу, 十 у. Inp, (x,) (5. 16) 
#=2 t=1 


所 以 : 
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In( P(x) ,s1) ) 


- Y (OI, + Y X Oo» Iny, + У, уо) Inp,(x,) 

zia pi 

其 中 y, 表示 转换 概率 矩阵 工 的 第 (j,k) 个 元 素 。w 是 马尔 科 夫 链 的 初始 分 布 ， 
即 S, 的 分 布 ， 但 却 未 必 是 稳 态 分 布 。 如 果 只 从 一 个 观察 值 来 估计 初始 分 布 是 不 合理 
的 ， 况且 对 于 马尔 科 夫 链 来 说 其 状态 本 身 又 是 不 可 观测 的 。EM 算法 可 以 解决 这 一 
问题 ， 假 设 马 尔 科 夫 链 不 仅 是 齐 次 的 而 且 是 稳 态 的 ， 这 样 就 有 w = 6 ， 初 始 值 的 估 
计 问 题 就 迎刃而解 。 


三 、HMM 的 EM 算法 具体 过 程 


E 步骤 : 用 基于 观察 值 7 所 得 到 的 条 件 期 望 六 (;) Ru C) BRAN в (0) 和 

u(t) ， 得 到 完整 数据 对 数 似 然 函数 CDLL， 即 ; 
š (a) = PCS, = jl a) = ОЬ, (5.17) 
dalt) = P(S, = S, = kl xt) = fa) yai n) b (I /Ly (5.18) 
注意 到 我 们 需要 前 向 概率 和 后 向 概率 来 计算 加 (1) MiC) , x HE BEBE 
在 变量 $ 是 具有 马尔 科 夫 链 稳 态 性 的 。 

M 3598 JH i, CO Ras GO BH Cos CO Fus CO) 得 到 的 完整 数据 的 对 数 似 然 函 数 
CDLL， 对 其 进行 最 优化 ， 该 最 优化 包括 如 下 三 组 参数 : 初始 分 布 w ， 转 移 概率 矩阵 
Г 和 状态 依赖 型 分 布 的 参数 〈 如 简单 泊 松 - 隐蔽 马尔 科 夫 模型 的 AN ，… ,A。 ) 。 

CDLL 最 大 化 过 程 可 以 分 成 三 个 独立 的 部 分 ， 因 为 第 一 项 (П) 只 依赖 于 初始 
分 布 w ， 第 二 项 (12) 是 状态 转移 概率 矩阵 T， 第 三 项 (1) 是 状态 依赖 型 分 布 的 
参数 。 我 们 可 以 采取 以 下 三 个 独立 步骤 来 求 CDLL 最 大 化 : 

L $ i (One, KF w REKE: 

2. LEE il) mer TORRE: 


j=l k= 
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3 È XO Inpa) 关于 分 布 参数 求 最 大 化 。 
以 上 三 个 部 分 最 优化 后 的 结果 如 下 : 

Ya 
EM: 


1. 40: = 


1 


= ú(1) 


тах Y u;(1) Inê, 
8. t. W, bw, +e! +H, = 1 
以 上 极 值 问题 的 拉 格 朗 日 函数 为 : 


L= $ iC )logw; + ACL =w, = w, = = wp) 
j=l 








À = Y (1) 
w, = ü (1)/ Y 40) = (1) 


Loy a Sa фа = Yi ， 这 个 问题 我 们 已 在 前 面 专门 讨论 过 。 

3. 第 三 步 最 大 化 可 能 容易 也 可 能 困难 ， 这 由 状态 依赖 型 分 布 的 性 质 决 定 。 这 个 
问题 实际 上 是 一 个 和 分 布 有 关 的 极 大 似 然 估计 问题 。 对 于 泊 松 分 布 和 正 态 分 布 而 言 ， 
解析 解 是 可 以 得 到 的 。 但 对 其 他 的 一 些 分 布 而 言 ， 比 如 伽 马 分 布 和 负 二 项 分 布 ， 数 
值 解 也 是 可 以 通过 M 步 又 来 得 到 。 

值得 注意 的 是 ， 前 向 和 后 向 概率 的 计算 出 现下 溢 或 上 溢 问 题 ，EM 算法 采取 加 
权 的 办 法 能 够 防止 这 个 问题 的 发 生 ， 或 者 至 少 减少 这 样 的 风险 。 下 面 我 们 着 重 讨论 
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完整 数据 对 数 似 然 函 数 CDLL 第 三 项 (13) 的 最 大 化 问题 ， 这 一 部 分 的 CDLL 为 : 
р> и, (t) logp;(x,) 


t= 


a ih 


四 、 泊 松 分 布 


泊 松 分 布 的 概率 分 布 p(x) = ewA?/x! ， 所以， 对 以 下 对 数 似 然 函 数 进行 最 


优化 : 
L = > 2, (t) 1np,(x,) 


j=1 t= 


T 
= T 2, Ct) Ine” NAT /x,! 


4s t= 


= x >, 468) (= А, + x, Ina; - ах, 1) 


求 导 得 : 
A 2 Ce) (= 1 + х, ХА) =0 


А, = У ш(0)х X u(t) (5.19) 
五 、 正 态 分 布 


正 态 分 布 的 概率 密度 р (x) = (2 то?) "exp [= soa -u)] ， 对 以 下 对 数 似 


然 函 数 进行 最 优化 : 
Le y У w(t) Inp;(x,) 


= (а -u))] 





= > > > u,;(t)In[ (2 то?) exp( = > 207 


= > У, û,([ - yh тој) -370 - m) ] 
Ry; Ho; RS, A 
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= Şua) x 5M =0 
T x, — Bj)” 一 or 
= Жи u(t) x — —= =0 
综 上 可 得 
p= Yulia? > u (t) (5.20) 
= У u (t) (x, - uj) / У u (1) (5.21) 
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隐 蕊 马尔 科 夫 模型 应 用 与 模型 选择 


本 章 讨论 以 下 几 个 十 分 重要 的 问题 : HMM 观测 值 的 条 件 分 布 P(X, = x1 XC? = 
x07) = Xp(Op G0) ， 即 给 定 除 : 时 刻 之 外 所 有 观测 值 ， 求 : 时刻 观 测 值 的 条 件 
分 布 ; НММ 的 预测 分 布 POS, = x1 Xi = xD = 之 名 (9)Pi(x) ， 即 给 定 所 有 观测 
值 求 h 期 之 后 观测 值 的 分 布 ; HMM 解码 问题 ， 包 括 局 部 解码 PCS, = il Xy 2x) = 
f G)b, (i) ZL, 和 全 局 解码 PCST = sp Xp = xp) ， 即 给 定 观测 值 条 件 下 求 某 时 刻 : 或 
整个 时 间 范 围 内 状态 变量 的 分 布 ; HMM 状态 预测 问题 P(Sr,, = il XT = xt) = 
(DZ ， 即 给 定 观测 值 条 件 下 期 之 后 状态 变量 的 分 布 。 

注意 ， 本 章 没有 假设 马尔 科 夫 链 |5,| 是 稳 态 的 ， 而 是 仅 做 了 齐 次 性 假定 。 用 行 
向 量 w 表示 初始 分 布 ， 即 5, 的 分 布 ， 这 里 并 未 假定 它 是 稳 态 分 布 。 当 然 ， 本 章 的 结 
论 对 于 稳 态 隐蔽 马尔 科 夫 模型 这 一 特殊 情况 也 是 成 立 的 ， 这 时 o 既是 初始 分 布 又 是 
稳 态 分 布 。 


DY ”条件 分 布 


现在 ,我 们 推导 在 给 定 所 有 其 他 观测 值 下 , X, 的 条 件 分 布 : P(X, = x1 XC? = 
x) 。 这 里 ,我们 把 除了 4 时 刻 之 外 其 他 所 有 时 刻 的 观测 值 记 为 XY”， 即 : 
MO = OR cet My Mic es: 08| 





SSA. 基于 隐蔽 8 马尔 科 夫 模型 的 时 序 分 析 方法 


使 用 前 面 讨论 过 的 关于 前 向 概率 、 后 向 概率 的 定义 以 及 HMM MRR, dE 
们 可 以 很 快 得 到 下 式 : 
对 于 上 = 2,3,…,7T， 有 : 


wP( x, ) B,-- B, ,TP() B,,, B; 


P(X, = «1 X^? = x?) = 
( : T И ) wP(x, ) В, В, , ГВ, B^ 





ос wP( x, ) BB, TP(x)B,, B,1' 
o /_\ГР(х)Ь', (6.1) 
由 上 一 章 内 容 可 知 , f, = wP(x,)B,-B,, Б, = B, Brl' H b, = 1, В, = 
TP(#,) o 


wP(x) B,--B,1' 


Mt= ` = (-1) = (-1) = 
Bel BF, P(X, = zl X liryu ET 


cc wP(x)b', (6.2) 


以 上 条 件 分 布 是 HMM 的 两 个 似 然 值 之 比 : 分 子 是 观测 值 x 被 替换 为 x 后 的 似 
然 值 ， 分 母 是 x, 缺失 时 的 似 然 值 。 上 面 两 式 中 的 条 件 概率 都 具备 如 下 形式 : 行 向 量 
ЛАГ EDI m x m 对 角 阵 P(x) = diag(pi(x) ,pn(z)) ， 再 乘 以 一 个 列 向 量 
b'o 于是， 对 于 t = 1,2,… ,7 ， 我 们 有 : 


Р(Х, ex] XU) ea" es Y d (Op) (6.3) 


其 中 , d (t) ENESTE i 203R S I] b, 的 第 i 个 元 素 之 积 ; 因此 ， 


Р(Х, = x1 XC) = a) < Y т()ру(х) (6.4) 


Hop, RARE TU) = di(t)/ Md). 
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DA W nod 


现在 我 们 来 讨论 HMM 的 预测 分 布 问题 。 具 体 来 讲 ， 我 们 将 推导 在 给 定 XT = хт 
的 条 件 下 , Ху, 条 件 分 布 的 两 种 表达 。 其 中 , h 被 称 为 预测 范围 。 我 们 还 是 重点 讨论 
离散 的 情形 ， 连 续 情形 与 离散 情形 基本 相同 ， 只 是 把 概率 函数 蔡 换 为 密度 函数 。 

对 于 离散 观测 值 的 HMM， 其 预测 分 布 P(X = x1 Xr = хт) 与 之 前 讨论 的 条 件 
J P(X, = x1 XC? = x) 很 相似 ， 并 且 计算 方法 本 质 上 也 是 相同 的 一 一 即 为 两 
个 似 然 值 之 比 : 


P(X} = x1, Xr = x) 


Р(Х. = xl XT = x1) - PC - "y 





_ wP(x, ) B; B,---B,I" P(x)1' 
ü wP( x, ) BB,---B,1' 





由 上 一 章 可 知 ar = f", WA: 
P(X = x| XÎ = x) = a,I"P(x)1' (6.6) 
因此 ， 预 测 分 布 可 以 写成 状态 依赖 概率 分 布 的 混合 : 
POS = 1 Х = af) = Y (Юрба) PEN 


Et, ME vo; (h) 是 向 量 oT" 的 第 i 个 元 素 。 
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在 语音 识别 研究 中 ， 研 究 序列 发 生 时 所 处 的 状态 是 颇 受 关注 的 ， 并 将 其 称 为 解 
码 问题 。 在 HMM 中 ， 解 码 是 指 在 已 知 观测 值 的 条 件 下 推断 未 知 状态 变量 的 过 程 ， 
分 为 局 部 解码 (Local Decoding) 和 全 局 解码 (Global Decoding) 。 更 为 具体 地 讲 ，， 
时 刻 状态 的 局 部 解码 是 指 在 某 个 时 刻 每 个 状态 最 可 能 发 生 的 概率 PCS, = il XT = x!) 
= f Gb. GL, ， 而 全 局 解码 是 指 某 一 状态 序列 最 可 能 发 生 的 概率 P(S = 571 XT = 
xp) 。 下 面 将 分 别 阐述 这 两 种 解码 。 

为 推导 马尔 可 夫 链 在 时刻 最 可 能 的 状态 ， 我 们 要 用 到 如 下 结论 : 

HKD) = P(X = 47,5, = i) (6.8) 
因此 ， 给 定 可 观察 值 的 情况 下 , S, 的 条 件 分 布 为 ; 


P(S, =i,X =x) f(b) 
» o5 T T zx t $***1 1 _ 1ل‎ t = ut 2 
P(S, = i| X, =a) = P(X? = xD) = m (i = 1,2,-,m) 





(6.9) 
其 中 , L, 可 以 通过 加 权 前 向 概率 的 方法 来 计算 。 此 方法 对 防止 计算 乘积 
f, Ci) b, Ci) 的 数值 下 洲 也 是 必要 的 。 
对 于 每 个 时 间 + € 11,…,7| ,给 定 观 察 值 XY ,最 可 能 发 生 的 状态 i 被 定 
义 为 : 
i = argmaxP(S, = il XI = x!) (6.10) 
这 种 方法 分 别 对 于 每 个 时 间 点 上， 都 使 条 件 概率 P(S, = il XÎ = xp) 最 大 化 ， 从 
而 确定 了 最 为 可 能 的 状态 ， 所 以 被 称 为 局 部 解码 。 
在 很 多 应 用 中 ， 比 如 语音 识别 ， 相 对 于 局 部 解码 所 得 到 的 每 一 个 时 刻 £ 的 最 可 
能 状态 ， 人 们 可 能 对 最 有 可 能 发 生 的 状态 序列 更 感 兴趣 。 这 里 提醒 大 家 一 下 ， 这 个 
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状态 序列 是 不 可 观测 的 ， 或 者 说 是 隐蔽 的， 所 以 需要 以 概率 的 方式 来 进行 推测 。 全 
局 解码 不 是 分 别 对 每 个 时 刻 上 来 最 大 化 PCS, = 11 XD = ху) ， 而 是 寻找 状态 序列 5, 
Sa, Sp ， 以 最 大 化 条 件 概 率 : 
p(s? = afl xf = aD 
或 者 等 价 地 ， 使 下 面 的 联合 概率 最 大 化 : 
POST = SPAT = D) =, П». Ца) 

这 是 一 个 与 局 部 解码 不 同 的 最 大 化 问题 ， 被 称 为 全 局 解码 。 局 部 和 全 局 解码 的 
结果 通常 十 分 相似 ， 但 并 不 完全 相同 。 

我 们 可 以 采用 数值 计算 的 方法 最 大 化 上 式 来 求 得 最 优 状 态 序 列 ss ，…'sr o А] 
题 是 这 需要 对 m 个 函数 进行 估计 ， 除 非 了 特别 小 ， 和 否则 这 种 方法 显然 是 不 可 行 的 。 
在 解决 这 一 问题 方面 比较 有 效 的 算法 是 Viterbi 算法 (1967), ， 可 以 用 来 确定 最 优 状 
态 序 列 。 下 面 简单 介绍 Viterbi 算法 的 具体 步骤 。 


首先 定义 : 
ё = P(S, = i,X, = x) = wip(xi) (6. 11) 
ë; = max PUT = 871,8, XD =) 022,,.9,7 (6.10) 


815277 51-1 


显然 ， 概 率 E, 满足 以 下 递归 : 

éy = [max(£auy) 109) 1t =2,3, T;i -1,2,7,m (6.13) 
由 于 该 式 的 计算 对 了 来 说 是 线性 的 ， 所 以 存在 一 种 计算 £, 值 的 有 效 方法 。 最 优 

TRAS FPS i, uis, stp 可 以 从 下 式 递 归 得 到 : 
іт = argmaxér, (6. 14) 
i, = —— #=T-1,T-2,-+,1 (6. 15) 
li FA METE FFL B Kc LAS FR NCEE HO FEE, BF DLTI DL EEE RY IER 
自然 对 数 以 避免 数值 下 汶 。YViterbi $3 1 EK AAS РА BC ЛИЛИ ҖЕ XERA, A 
Ж TT DU e KE Rs УК, Viterbi 算法 在 极 大 似 然 函数 中 还 使 用 了 加 权 权 重 的 
办 法 ， 这 与 我 们 前 面 计算 a) 方法 很 相似 。 这 种 加 权 缩 放 法 也 可 用 于 这 里 ， 只 
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需 将 矩阵 1,1 的 各 行进 行 缩放 ， 使 得 每 行 的 各 元 素 之 和 为 1。Viterbi 算法 既 可 运 


用 于 稳 态 马尔 科 夫 链 也 可 用 于 非 稳 态 马尔 科 夫 链 ， 因 而 无 须 假 设 初 始 分 布 w 是 稳 
态 分 布 。 


D 第 四 节 ”状态 预测 


在 前 面 的 讨论 中 ， 我 们 推导 出 了 给 定 观 测 值 Xi 下 状态 5, 的 条 件 分 布 ， 就 时 间 点 
来 讲 ， 只 考虑 了 现在 或 过 去 的 状态 。 下 面 将 给 出 :>7 时 未 来 状态 S, 的 条 件 分 布 ， 即 
进行 状态 预测 。 
给 定 观 察 值 x ,xz ，…,xr ， 可 以 得 出 下 面 一 系列 有 关 未 来 、 现 在 和 过 去 状态 的 
表述 : 
E (i)/Lr t > 了 时 状态 预测 
P(S, sil XP =a) = (ЛЬ t = THY 平滑 过 程 
fKGbG)L Sts TR 过 滤 过 程 
HR, "(+ i) 表示 矩阵 了 ”的 第 ; 列 。 过 滤 和 平滑 部 分 和 前 面 所 描述 的 状态 
概率 是 相同 的 ， 事 实 上 由 于 对 任何 ;都 有 br(i) = 1 ， 这 两 部 分 可 以 合 而 为 一 。 状 态 
预测 部 分 仅仅 是 对 +>7 即 未 来 的 一 种 概括 ， 即 : 


Г". 
PS, = il Xî = а) fl D аре) i-am (616) 
T 


其 中 ar = fr/fr1' o BRER, 4h oit, aD 趋 近 于 马尔 可 夫 链 稳 态 分 布 。 
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D 第 五 节 模型 选择 标准 


在 有 m 个 状态 的 隐 酸 马尔 科 夫 模型 中 ， 增 加 状态 的 个 数 一 般 会 改善 模型 的 拟 合 
程度 。 但 是 ， 这 也 会 带 来 待 估 参 数 数量 以 平方 的 速度 增加 ， 所 以 在 拟 合 效 果 和 参数 
数量 之 间 存 在 一 个 权衡 。 因 此 ， 需 要 确定 一 个 选择 模型 的 标准 。 

在 某 些 情况 下 ， 对 状态 依赖 型 分 布 或 者 转移 概率 矩阵 做 出 假设 以 减少 参数 的 个 
数 是 一 种 明智 的 选择 。 

下 面 ， 我 们 对 HMM 的 模型 选择 标准 做 一 个 简单 介绍 。 

EEH HMM 时 ， 我 们 会 经 常 遇 到 如 下 这 些 问 题 : 比如 如 何 选择 状态 m 的 个 数 ， 
或 者 如 何 选择 状态 依赖 型 分 布 的 参数 ， 比 如 在 泊 松 分 布 和 负 二 项 分 布 之 间 如 何 抉择 。 
这 需要 我 们 为 模型 选择 确定 一 些 标准 。 

我 们 至 少 有 两 种 方法 进行 模型 选择 。 第 一 种 是 使 用 统计 的 方法 ， 将 模型 选择 标 
准 简化 为 AIC (Akaike Information Criterion) : 

AIC = - 201 + 2K (6.17) 

式 中 InL 为 拟 合 模型 的 对 数 最 大 似 然 函数 , K 为 模型 中 参数 的 个 数 。 第 一 项 的 拟 
合 值 随 着 状态 m 的 个 数 增 加 而 减 小 ， 第 二 项 是 一 个 惩罚 项 ， 随 着 状态 m 的 个 数 增加 
而 增 大 。 

第 二 种 是 运用 贝 叶 斯 的 方法 进行 模型 选择 。 在 这 种 情形 下 ， 我 们 使 用 与 AIC 不 同 
的 惩罚 项 ， 这 种 方法 形成 的 模型 选择 标准 被 称 为 BIC ( Bayesian Information Criterion) : 

BIC = - 2InL + 天 .ln7 (6. 18) 

上 式 中 In 和 天 的 含义 和 AIC 中 相同 , 了 是 观察 值 的 个 数 。 与 AIC 相 比 ， 当 7 > 
e Wf, BIC 的 惩罚 项 有 更 大 的 权重 ， 因 此 ， 很 多 人 喜欢 使 用 BIC 的 方法 来 进行 模型 
选择 。 当 然 ， 与 AIC 相 比 ，BIC 一 般 比 较 适合 参数 较 少 的 模型 选择 问题 。 





马尔 科 夫 状态 转换 模型 


在 讨论 马尔 科 夫 状态 转换 模型 (Markov — Switching Model, MS - AR 模型 ) 之 
前 ， 先 让 我 们 认识 一 下 非 稳定 时 间 序 列 模型 。 这 里 的 稳定 性 指 的 是 模型 参数 在 不 同 
时 间 段 之 间 的 相对 固定 性 。 在 对 时 间 序 列 的 回归 分 析 中 ， 如 果 任 取 一 个 时 间 段 ， 将 
这 个 序列 向 前 或 向 后 移动 ， 其 回归 模型 参数 仍 保持 不 变 ， 则 此 时 的 回归 模型 是 稳定 
的 ; 如 果 在 回归 过 程 中 ， 某 一 时 期 内 的 参数 和 另 一 时 期 内 的 参数 明显 不 同 ， 则 称 此 
时 的 回归 模型 是 非 稳 定 的 。 这 里 重点 考察 的 非 稳 定时 间 序 列 模型 是 马尔 科 夫 状态 转 
换 模型 ， 即 对 整体 数据 的 描述 不 存在 稳定 的 时 间 序 列 模型 ， 但 是 对 局 部 数据 的 描述 
存在 稳定 的 时 间 序 列 模型 ， 且 随 着 局 部 数据 的 推移 往往 需要 在 几 个 模型 间 不 断 切 换 ， 
即时 间 序 列 中 存在 转换 (Switch) 。 下 面 将 对 非 稳定 模型 展开 研究 。 

目前 已 经 有 大 量 文献 研究 如 何 判 定 在 某 时 间 点 前 后 是 否 存在 不 同 的 模型 参数 组 
来 描述 数据 生成 过 程 。 普 林 斯 顿 大 学 分 至 庄 教 授 提出 了 分 氏 检 验 法 ， 用 于 判断 模型 
在 预先 给 定 的 时 点 是 否 发 生 了 变化 。 这 种 方法 的 特点 在 于 把 时 间 序 列 数 据 分 成 两 部 
分 ， 并 检验 模型 是 否 在 其 分 界 点 已 发 生 结构 性 变化 。 在 此 基础 上 ， 利 用 下 检验 来 检 
验 由 前 一 部 分 n 个 数据 求 得 的 参数 与 由 后 一 部 分 т 个 数据 求 得 的 参数 是 否 相等 ， 由 
此 判断 模型 是 否 发 生 了 变化 。 

但 问题 是 ， 在 实际 操作 中 ， 研 究 者 通常 不 清楚 时 间 序 列 结构 变化 的 具体 时 间 点 ， 
因此 ， 需 要 推断 这 些 转折 点 (Turning Point) 发 生 的 时 间 。 早 期 研究 都 只 考虑 仅 有 
一 个 未 知 转 折 点 的 时 间 序 列 数据 问题 ,例如 Quandt (1958), Farley 和 Hinich 
(1970)。 后 来 ，Goldfeld 和 Quandt (1973) 开始 考虑 允许 多 个 未 知 转折 点 的 时 间 序 
列 数据 问题 。 此 外 ， 这 些 模型 也 逐步 取消 了 转换 概率 外 生性 的 假设 ， 即 决定 转换 点 
发 生 的 因素 包括 在 模型 内 部 。Goldfeld 和 Quandt (1973) 的 模型 创新 性 地 引入 马尔 
科 夫 过 程 ， 明 确 假设 状态 转换 服从 马尔 科 夫 过 程 。 特 别 是 ，Hamilton (1989) WS 


尔 科 夫 状 态 转换 模型 (State - dependent Markov - Switching Model) 引起 了 人 们 对 模 
型 中 状态 变量 的 关注 。Hamilton (1989) 模型 可 以 看 作 是 Goldfeld 和 Quandt (1973) 
模型 在 有 关 状 态 依赖 的 自 回 归 模 型 方面 的 进一步 拓展 。 有 关 这 个 问题 的 深入 探讨 ， 
请 查阅 Hamilton (1993) 所 著 的 《Time Series Analysis) 一 书 。 

对 于 马尔 科 夫 状态 转换 模型 而 言 ， 复 杂 之 处 在 于 随机 变量 y, 是 一 个 状态 依赖 变 
量 。 具 体 来 说 是 指 y, 的 分 布 或 分 布 的 参数 取决 于 状态 变量 S, 。 我 们 只 能 得 到 随机 变 
Tg y, 基于 状态 变量 S, 的 条 件 分 布 f(y, 1 S) 。 对 于 状态 变量 S, 来 说 ， 可 能 是 可 观测 
的 ， 也 可 能 是 不 可 观测 的 ; 可 能 是 相互 独立 的 ， 也 可 能 是 相互 影响 的 。 对 于 相互 影 
响 情 况 下 的 S, ， 我 们 常常 假设 其 服从 马尔 科 夫 过 程 。 同 样 , y, 本 身 可 以 是 相互 独立 
的 ， 也 可 以 是 序列 相关 的 。 所 以 ， 尽 管 我 们 对 状态 变量 施加 了 马尔 科 夫 性 要 求 ， 但 
是 模型 仍然 具有 高 度 的 灵活 性 和 适用 性 。 

本 书 的 第 三 部 分 将 分 以 下 四 种 情况 来 详细 讨论 马尔 科 夫 状态 转换 模型 : 














状态 变量 S, 
相互 独立 | 马尔 科 夫 
无 自 相关 | 第 七 章 第 一 节 (状态 不 可 观测 ) | 第 七 章 第 二 节 (状态 不 可 观测 ) 
DARENT. it 第 八 章 第 一 节 (状态 可 观测 ) 
第 八 章 第 二 节 (状态 不 可 观测 ) 








第 九 章 将 基于 第 八 章 第 二 节 的 马尔 科 夫 状态 转换 (MS - AR) 模型 讨论 参数 的 
估计 问题 。 



































序列 不 相关 数据 的 马尔 科 夫 


序列 不 相关 意味 着 过 去 观测 值 对 未 来 观测 值 的 预测 没有 任何 价值 ， 用 数学 语言 

表达 即 y, 关 f(y, ,yyo) 。 在 没有 状态 转换 时 ， 我 们 的 回归 模型 是 : 
у= В+, e Li d. N(0,o) 

其 中 x 是 关于 1 x k EERE. FATT n] DA A f HS SOS BE 

系数 : 
InL = уду) 

通过 对 B ЖП o^ 求 一 阶 导 并 令 其 等 于 零 ， 可 以 得 到 对 数 似 然 值 的 最 大 化 值 ， 并 且 
求解 参数 的 估计 值 。 有 具体 过 程 如 下 : 

由 于 se = L i d. N(0,07) ， 可 知 : 


- 





fle,) = exp( - 25) 


/2ma^ 
因为 x, 是 已 知 的 观测 值 , 8 也 是 一 个 固定 值 ， 所 以 y, 密度 函数 可 以 写 为 : 





Ne inca 
Ag) = rt ap 


有 关 这 个 问题 的 求解 ， 我 们 已 在 第 一 章 中 进行 过 详细 讨论 。 接 下 来 ， 我 们 考虑 
在 此 基础 上 加 入 状态 转换 后 的 模型 变化 情况 : 


y, = xB, + е, t=1,2,--,T (7.1) 
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e, ~ N(0,0;) 5, =0 或 1 (7.2) 
B; = (1 =) + 8\5, (7.3) 
T, 2021-5) *o?s, (7.4) 


这 样 ， 模 型 参数 出 现 了 一 些 变化 ， 不 再 是 固定 的 取 值 ， 而 是 在 两 组 取 值 间 反 复 
转换 。 通 过 上 述 模型 设置 可 知 , 在 5, =0 时 ,B, =B, o = о; 而 在 S, = 18], В, 
= 8, ,ol = 01. ШЖ = В.Н оо = от, 那么 这 意味 着 稳 态 时 间 序 列 模型 可 以 
看 作 是 马尔 科 夫 状态 转换 模型 的 特例 ; 如 果 两 组 参数 不 相等 ， 那 么 就 意味 着 模型 参 
数 在 两 组 取 值 之 间 不 断 转 换 。 基 于 以 上 模型 设置 ， 我 们 需要 对 以 下 两 种 情况 分 别 进 
行 讨论 : 

第 一 种 情况 指 状态 变量 S, 直接 可 观测 。 这 是 指 在 1 时 可 以 直接 观测 得 到 5, 的 值 ， 
从 而 使 问题 大 大 简化 。 此 时 ， 我 们 可 以 使 用 极 大 似 然 估 计 方 法 来 分 别 估计 ， 即 在 5, 
= 0 时 , В, flo, ; YES, = 1 BF, 估计 B, 和 el 。 计 算 步 又 如 下 : 

1. BE Yr Yra yi VAR Sp = sr, Sra = sr," S, = s, ， 可 以 得 到 观测 值 关 
于 状态 变量 的 条 件 分 布 





Куті Sr = sr), f(yral Sra = spa), Alm |S, = s.) (7. 5) 
" 1 (у, - x, )° 
2. 条 件 密度 函数 为 f(y,1 S, = s) = -exp( iso i4 (7. 6) 
TO, T, 
3. 似 然 函 数 为 也 = ут Sp = sr) *fiyril Sra = sra) AS = s) 
(7.7) 
т 
4. 对 数 似 然 函数 为 InL = 》 In(f(y,! S, = s,)) (7.8) 


5. 通过 分 别 对 By B, ,oo ,ci 求 一 阶 导 ， 最 大 化 上 式 


T 
No bb = wa ЖД =a) 
第 二 种 情况 是 指 状态 变量 S, 不 可 观测 。 在 这 种 情况 下 ， 部 分 参数 的 取 值 会 影响 
到 状态 的 识别 ， 从 而 影响 到 观测 值 的 分 布 ， 并 连同 其 他 参数 共同 影响 极 大 似 然 值 的 


大 小 。 根 据 所 能 获取 的 历史 信息 和 ”= (Y2 Yi) ， 我 们 要 估计 /5,1 у) o 
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计算 过 程 如 下 : 

1. 由 贝 叶 斯 定理 可 得 f(y,,5,) = f(y,1 S) - (S) ， 在 加 入 条 件 y 后 

FS, yr) = f(y, Syr 6708,1 уг) (7.9) 

2. 由 于 S, ÆSA, "iyi. 是 已 知 的 ， 所 以 在 计算 极 大 似 然 值 时 是 基于 历 
史 观 测 值 来 推测 条 件 概率 ， 用 f(y, 1 уг) 来 计算 极 大 似 然 值 ， 而 不 用 第 一 种 情况 中 
所 使 用 的 f(y,1 S, = s.) 。 用 类 似 积分 消除 的 方法 将 f(y,1 yr) 写成 f(y,,5,1 yr) 项 
对 S, 加 总 的 形式 ， 并 以 此 达到 计算 f(y, | уг) 的 目的 。 因 为 S, 只 能 等 于 0 或 1， 
所 以 : 

fly ly") = EAA у!) 
= f(y,,S, 201 y) *-f(y,S, = 117г!) 
= fly,! S, 20,51) AS = Ol y) +7018, 23,17) ‘FS, 210 y) 


- > f, | S 061 2 S651 эү) 


= У! S,) ACS | у) 








1 (y, - x Bo) "E 
= = sa ӘРИ, шаб у) 
dur 205 ú 
1 (y, - xg)" E 1-1 
* Jp ae RN уг!) (7.10) 
3. 似 然 方程 为 
L= [f эг) 
= П Stn! Sx) «POS уг!) (7.11) 
tzl 3;=0 
两 边 取 自然 对 数 ， 可 得 : 
ш. = УУ f(y! 5,717) + PCS, у )) (7.12) 


4. 通过 对 Bo ,Bi ,00,01 求 一 阶 导 ， 最 大 化 上 式 
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1! eo. 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方法 





„тах Да = тах, > In LS | 5,,уү ) + P(S, | у )) 
在 状态 变量 S, 不 可 观测 的 情况 下 ， 问题 显 得 更 为 复杂 。 下 面 假设 S, 不 可 观测 ， 
但 是 在 给 定 S, 的 条 件 下 у, 不 存在 序列 相关 性 ， 并 在 此 假设 基础 上 针对 S, 之 间 相 互 独 


立 和 满足 马尔 科 夫 性 两 种 情况 展开 对 模型 估计 的 讨论 。 
D 第 一 节 ”序列 不 相关 且 状 态 相互 独立 的 转换 模型 


有 关 序 列 y, 不 相关 并 且 状 态 S, 不 可 观测 且 相 互 独 立 的 转换 模型 ,具体 假设 
如 下 : 

1. 假设 y, 满足 序列 不 相关 ， 即 有 yy, A fya) 3 

2. 假设 每 一 期 的 状态 变量 S, 是 无 法 观测 的 未 知 变量 ， 因 此 需要 对 S, 的 变化 做 出 
进一步 的 假设 ; 

3. 假设 S, 每 期 之 间 的 变化 是 互相 独立 的 ， 即 5, BUS ST 都 不 相关 。 

我 们 要 研究 的 问题 是 ， 在 已 知 数据 集 |у | 的 前 提 下 ， 来 估计 模型 参数 以 及 不 
可 观测 的 状态 序列 SY”， 并 以 此 来 推测 5, ЖП y, 等 。 

与 以 往 模型 不 同 的 是 ， 这 里 需要 假设 5, 的 值 是 未 知 的 ， 我们 不 能 从 数据 中 直接 
观测 得 到 ， 因 此 需要 对 S, 的 值 做 出 推断 。 比 如 ,我们 可 以 根据 之 前 的 数据 和 信息 
yr | 来 估计 5,, 即 /(S,1 yi) 。 具 体 过 程 如 下 : 

1. 假设 S, 的 条 件 概 率 为 (5, =01 y) =p, HAAS, 210 y) =1-p. 

这 样 就 可 以 得 到 在 状态 变量 独立 假设 下 5, 的 取 值 概率 ; 

| 2 


2. 对 于 y 的 条 件 分 布 ， 我 们 仍然 假设 /7 1 S) = de 


TO, 








3. 基于 以 上 假设 ,我 们 就 可 以 得 出 似 然 函数 。 在 状态 独立 假设 中 , S, 是 我 们 根 
据 之 前 期 的 信息 推断 出 来 的 ， 不 能 简单 地 直接 用 S, 的 信息 来 确定 y, ， 而 要 用 |y | 
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来 确定 У, š 


L = f(y,| у) Kal у) sm find) (7.13) 


其 中 , fly) оь Xe 
因为 S, 是 观测 值 所 处 事件 空间 的 测度 ， 令 0°) 表示 变量 所 对 应 的 事件 集合 ， 
则 有 : 
QS, =0) п OCS, =1) = OH OCS, =0) UDCS, 2 1) = Q 
所 以 ， 我 们 可 以 得 出 : 
(у, п ACS, =0)) U (y, N 0(8, 21)) = y, n (ACS, = 0) U ACS, =1)) 
= y, ПО = y, 
这 样 ， 就 可 以 得 到 : 
Жу, уу) = Sui! S..% ) IST Yr) (7.14) 
其 中 加 总 项 中 的 第 一 部 分 表示 给 定 历史 观测 值 和 当期 状态 变量 之 后 当期 观测 值 
的 似 然 值 ， 第 二 部 分 表示 给 定 历史 观测 值 之 后 当期 状态 变量 取 值 的 概率 。 
我 们 已 经 完全 利用 了 y+” 中 的 信息 来 推断 S, ， 因 此 : 


fols е S,) (S, 0 уу) (T. 15) 
FE > y, WSR РАС: 
L = fly) YF) -fy YT) ° e fyi l yo) 


We е 





“H 2 fly 8) *KK8,1 1) 
ipo 





i 


KG yn) | (7.16) 


Lx -—À 
两 边 取 自 然 对 数 ， 可 得 : 


int = 1n T] AU 





2 7 KS t] 
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adi. 











T | 1 _ 1-802 1 ze „й ) 7 ) 
= е 2 ‘p+ E 一 „Л 
> | V2 то? à i /2 тот j | : 


我 们 上 面 的 做 法 是 ， 先 依靠 u 的 信息 来 估计 S, = 0I S, = 1 的 概率 。 根 据 不 
同 的 状态 概率 ,我 们 可 以 确定 每 个 状态 下 y, 的 似 然 分 布 ， 再 将 两 种 状态 相 加 。 由 最 
大 似 然 估计 的 原理 ， 我 们 可 以 得 到 以 下 似 然 函 数 : 


1 _Or-za60)2 1 _ (yx 681) x81)? . (1 )] 
е wj "pt е 21 =P 
/2 поё V2 то? 


在 求解 以 上 方程 时 ， 由 于 概率 p e (0,1) ， 所 以 应 该 对 p 加 以 约束 ,但 这 样 的 
话 将 会 大 大 增加 求解 的 难度 。 因 此 ， 我们 对 P 作 如 下 处 理 : 











T 
max lnL = max In > | 


P(S, #0) = p = U (7.18) 
1 + exp( p) 
则 有 : 
BIS m1b slcpET-MBBL. „ „21... (7.19) 


1 +ехр(р) 1 + exp(p) 

这 里 , 三 是 一 个 无 约束 的 参数 。 如 果 S, 随机 估计 值 不 依赖 于 任何 其 他 的 外 生变 
量 ， 我 们 就 可 以 得 到 P(S, = jl y) = PCS, =j) 。 那 么 ， 通 过 求解 以 上 最 大 似 然 函 
数 ， 我 们 可 以 求 出 Bo ,Bi oo oi 石 几 个 未 知 参数 。 

接 下 来 ， 我 们 再 考虑 一 个 更 为 复杂 的 情况 , PCS.) 与 前 期 信息 у 不 相关 ， 但 可 
能 与 其 他 外 生 或 者 前 定 变量 相关 。 假 定 有 n 个 外 生 或 者 前 定 变量 ， 我 们 将 这 些 变量 
放 到 (4 - 1) x n HERE Z, , P, p WP 2, 回归 可 以 得 到 : 


р =a,+Z'..°B, (7.20) 
Xi ow 
P(S, = 0) =p = „ера ыйы e NE (7.21) 


_ 1 + ехр(а, +Z',, * B,) 


1 
1 + exp(a, + Z',., * B,) 





P(S =1) =1-p = (7.22) 
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这 样 ， 似 然 函数 中 就 包含 By Bi L0 01.0, B, 六 个 未 知 参数 。 通 过 求解 极 大 似 
然 函数 ,我们 就 可 以 得 到 这 些 参数 的 估计 。 


D W ”序列 不 相关 马尔 科 夫 状态 转换 模型 


之 前 所 讨论 的 两 种 转换 情况 中 , 5, 都 是 根据 yi” 直接 推断 出 的 ; 然而 在 实际 情况 
中 , S, 往往 难以 被 观察 到 ， 但 可 以 根据 S, , 推测 出 5, 。 我 们 常常 假设 状态 S, 的 变化 
服从 马尔 科 夫 过 程 ， 这 就 是 马 可 科 夫 状态 转换 模型 。 下 面 我 们 开始 研究 这 个 模型 ， 
仍然 假设 只 有 两 个 状态 ， 即 5S, = 1 或 者 5, = 0 。 


我 们 假设 状态 变量 S, 有 如 下 的 转换 关系 : 
P(S =11S,, =1) =p 
P(S, = 01S,, =0) =q 
处 理 马尔 科 夫 状态 转换 模型 的 方法 与 上 一 节 所 讨论 的 解决 办 法 相似 ， 共 需要 如 
下 四 个 步 又 : 
1. 初始 化 过 程 : 给 定 w。= P(S, 201 yo) 和 zw = P(S, = 01 yo) o уо 表示 到 时 
间 0 为 止 得 到 的 所 有 信息 。 
2. 预测 过 程 : 对 于 i,j = 0 或 1 ,在 给 定 P(S，= il yy ) 的 条 件 下 求 


1 
P(S, =jl у) = È PCS, =j, Sa = il уг) 
i=0 


1 
= Y PCS, = p| Bis SPOS, sila) (7.23) 
1=0 
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3. 更 新 过 程 : 
在 第 1 期 ,y, 变 为 已 知 , у = (у uy) 。 这 就 需要 更 新 对 PCS, = Југ) 的 估计 ， 
或 在 第 1 次 迭代 后 ， 其 概率 变 为 : 


P(S, =jl yi) = PCS, =7 yy) 








PCS, = уу 
由 于 PCS = 1) = RE ， 等 式 两 连同 时 加 入 条 件 认得 : 
1 Р 5, = ls * ie 
мй «dl oy) = 


PES, efor PGs, = ali") 
aad 1 

Y, Р(у,,8, = j| у!) 

j=0 
Pix, РВ. = jayi )P(S, = jl уу) 
1 


¥ Pty, 1 S, =ў,уү')Р(8, = jl of) 
j=0 








(7.24) 


4. 当 : 上 +1 > 了 了 时， 计算 结 束 。 和 否则 ， 重 复 步 骤 1-3, H PCS, =jl у), ， 可 得 
P(S =]! yi) o 

重复 以 上 四 个 步骤 ， 即 可 得 到 P(S = jb yi ) (t=1,2,…,7)。 

在 上 述 计算 过 程 中 的 :=1 时 ， 需 要 对 初始 值 P(S, 1 yo) 予以 赋值 。 可 用 以 下 步 
又 求 得 该 初始 值 。 

1. 对 转移 概率 进行 如 下 假设 : 


-018,,-20) ысу ЖЕНЕ... 
1 + exp(p) 


PS, sib & 21) sgos Ша... 
1 + exp(q) 


P(S, =115S,, 20) =1-р 
Р(8, =01S,, 21) =1-9 
2. 我 们 再 假设 P(S, = 0) = 0, P(S =1) =1 -w 
P(S,,, = 0) = P(S,, =ONS, =1) +P(S,, = 0 П S, = 0) 
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= P(S,,, =01 S, =1)+P(S, 21) +P(S,,, = 015, 20) - P(S, = 0) 
= (1 =q) * (1 = P(S, 20)) «p: P(S, = 0) 
= (1-4) +(p+q- 1) PS = 0) 

3. 利用 以 上 方程 进行 类 推 ， 可 得 : 

P(S, 20) = (1-94) + (p+q-1) * P(S, = 0) 


(l94)*(ptq51)*w 
P(S, =0) = (1-9) + (p+q -1) -P(S, = 0) 


(1-9) +(1-q)(p+q-1)+(p+q-1) + 


4. 递 推 可 得 : 
n-l 

P(S, =0) = (1-9) * (p*q-1) *(p*q-1)"*w 
= 


_1=@=(1 = q) (p +q = 1)" 
2-p-q 





*t(ptq-1)'*w 
a ES a +q -—1)'(u ag 5.5 86. 
pem (р+а – 1)" (0 – > гре 

由 于 |p+g-1|<1, 得: 


limP(S, = 0) = 70 


应 当 假设 初始 值 P( So 201 yo) A: 


" „abeg. 
Р(5 = 01 yo) pg vec 


FI: PCS, = 11 yo) = gE о PER ABER EROS АРЫШ ESA SHE 


这 时 ， 似 然 函数 就 包含 Bu, Bi, Cos 01, р, q 六 个 未 知 参 数 。 通 过 求解 极 大 似 然 


函数 ， 我 们 就 可 以 得 到 这 些 系数 的 估计 值 。 
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序列 自 相 关 的 马尔 科 夫 状态 转换 模型 


b 第 一 节 ”序列 自 相关 且 状 态 可 观测 的 马尔 科 夫 状态 
转换 模型 


我 们 下 面 考虑 的 情况 是 , y, 序列 自 相关 ， 同 时 假设 5, 为 可 观测 变量 。 此 时 , y, = 
fna east) ә 

一 般 地 ， 观 测 值 序列 自 相 关 且 含有 M 个 状态 的 马尔 科 夫 转换 模型 可 以 写 为 : 

olL) (у, 7n) = е, e, = іі d. №0, о?) 
P(Sa = S, =i) =p, i,j=1,2,.…,M 
Ms, = Ma Sy + 25, + + Sy 

Os, = alS + 055, + * + суы, 

后 面 两 个 式 子 分 别 表 示 均 值 的 转换 和 方差 的 转换 。 其 中 e(L) 为 滞后 算 子 。 在 
某 一 时 点 上 ， 参 数 处 于 且 仅 处 于 一 个 状态 ， 其 取 值 取决 于 状态 变量 $, o MS, = mit, 
Sm =1, @ S =0。 

为 简化 起 见 ， 我 们 从 у, AAR (1) 的 情况 入 手 。 此 时 ， 

(y, -д„) = p(y 7B) te, е, ~ N(0,02) 

由 于 5, 是 可 观测 的 ， 因 而 以 上 完全 可 以 看 作 是 一 个 虚拟 变量 模型 。 假 设 y, 的 密 

度 函 数 为 : 











Ay. | #88.) = zzl- (OX 748.) a = ud d | 
AK y, 的 似 然 函 数 为 : 
五 = AYN IE Saa) * final 1 S.S) fy) 5,59) 
两 边 同时 取 自 然 对 数 ， 可 得 对 数 形式 的 最 大 似 然 函数 为 : 
InL = У о, E 8. 28...) 


由 于 状态 S, 的 可 观测 性 ， 我 们 很 容易 利用 以 上 似 然 函 数 求 出 参数 的 最 优 估 计 值 。 


多 第 二 节 ”序列 自 相关 和 状态 不 可 观测 的 马尔 科 夫 状态 
转换 模型 


在 上 一 节 例 子 中 , у, HAR) 过 程 ， 且 在 给 定 过 去 1 - 1 期 的 信息 y 的 情况 下 ， 
如 果 要 描述 y, 的 密度 函数 ， 还 需要 变量 S, 与 S. 的 信息 。 当 在 上 期 状态 变量 S, 与 
S 不 可 观测 的 时 候 ， 问 题 就 变 得 较为 复杂 。 为 了 解决 这 样 的 问题 ， 我 们 运用 与 上 
一 节 相似 的 方法 ,但 是 不 再 考虑 y, ЯП S, 的 联合 密度 函数 ， 而 考虑 使 用 y, , 5, RIS, , 
的 联合 密度 函数 。 模 型 设置 如 下 : 
ATE YoYo yi 且 数 据 产 生 过 程 服从 АКОТ) 模型 ， 即 : 
(y, -us) = p(y 7 us) te, e, ~ N(0,0s) (8.1) 
其 中 5,5, 1 ,…,Si 不 可 观测 ， 但 服从 一 阶 马尔 科 夫 过 程 ; 








1 | (у, = ng) = Ф. (Yr 7 us V 
exp( T 2 ) 
206, 205, 
在 这 样 的 情况 下 ， 分 两 个 步骤 来 建立 极 大 似 然 函 数 并 对 参数 进行 估计 。 具 体 步 
又 如 下 : 
1. 在 以 过 去 信息 p 为 条 件 的 情况 下 ， 得 到 y , 5, HIS, , 的 联合 密度 函数 : 


fil S. S, = (8.2) 
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f(y,,S,,S 1 у) = Kl S533) PCS, Sia 1 yr) (8.3) 
其 中 , f(y, 1 yi" SS) 可 由 式 8. 2 得 到 。 
2. 为 了 利用 上 式 求 得 f(y,1 ea) ,需要 将 包含 5S, RIS, , 所 有 可 能 值 的 联合 密度 
函数 进行 求 和 ， 即 : 
fly ly") = > E Ssns у!) 


5 


=l S,- (= 


M M 
= 5, DSHS, Sar УР(8,,5, l у) (8.4) 
1 


在 上 式 中 ， 边 际 密 度 f(y, | yp) 是 M^ 个 条 件 密度 的 加 权 平 均 ， 权 重 分 别 是 
P(S,,8., 1917) , HB Ej = £,2,,M. 
з. 综 上 可 得 似 然 函 数 : 
Ls DIM YY f Ss) PG 10) (8.5) 
dE HELL ЕЗШ ISO BE ROCHDER IR BAS A, 我 们 仍然 需要 解决 如 何 
ТЖ Р(5,,5, | yr) (t = 1,2,…,7) 的 问题 。 


Dey MeL 


P(S,,S 01 уу ) (2 1,2,--,T) 可 按照 下 面 两 个 步 又 循环 得 到 ， 我 们 将 这 个 过 
程 称 为 Hamilton 滤波 ( Filtering) 。 
第 一 步 被 称 为 预测 过 程 (Forecasting), BLA у 信息 为 条 件 ， 在 给 定 PCS, = i 
Iy) i = 1,2,…,M 的 条 件 下 , R PCS, Sa 1 у!) 。 计 算 的 方法 如 下 : 
P(S,S,,1 y) = P(S, jl 5,1 = i)P(S,, = il у!) (8.6) 
其 中 ， 对 于 i,j = 1,2,…,M 有 P(S, =]! 5, = i) ， 表 示 马 尔 科 夫 过 程 的 转移 
第 二 步 被 称 为 更 新 过 程 (Updating) ， 即 在 给 定 P(S, „5,1 yr) 和 新 增 观 测 值 y 
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的 条 件 下 求 PCS,,S, | у) 。 在 :期 结束 后 ， 我 们 就 可 通过 观察 得 到 yy ， 信 息 集 由 
yy. EMA y, 。 所 以 就 可 以 将 所 要 计算 的 概率 按照 以 下 方法 更 新 : 
PCS S, | x) = PCS, S „ур uu) 


_ 5, = j,S, = уу, | y) 
fol y) 


Fy: | S, = J, Si = yp) )P(S, = FSi = 1 | уг!) 
x M M А $ фа š . t= 
NR 2, „Ок! 5, = J,S,- = iy, )P(S, = J,S,1 = il yr) 


(8.7) 








同时 得 到 : 
P(S, =}! y) = X, PS, = 8,8,1 = il у!) (8.8) 
以 备 下 一 个 循环 中 第 一 步 预测 过 程 所 用 。 
重复 以 上 两 个 步骤 ， 可 以 使 我 们 计算 出 P(S,,S 1 у!) 。 从 +=1 开始 过 滤 ， 我 
们 可 以 使 用 稳 态 概率 或 无 条 件 概率 作为 初始 值 。 在 两 个 状态 的 情况 下 ， 一 阶 马 尔 科 
夫 转 换 的 稳 态 概率 如 下 : 


wi = P(S, =ll y) => (8.9) 


l -Pn 
2 -Pn - ри 
对 Hamilton 滤波 的 总 结 ， 可 以 参考 下 面 计算 过 程 : 

1. 计算 初始 值 w Aw, , Xt = 1,2,…,7 循 环 计 算 下 面 步骤 2 和 4， 并 根据 式 
8. 3 求 得 各 个 时 期 的 对 数 似 然 值 ; 

2. 根据 式 8. 6 计算 预测 过 程 

3. 根据 式 8. 3 计算 更 新 前 的 对 数 似 然 值 ; 

4. 获取 新 的 观测 值 数 据 信 息 后 ， 根 据 式 8.7、 式 8. 8 计算 更 新 过 程 。 

完成 以 上 步 驰 ， 求 得 对 数 似 然 函数 方程 式 8. 5， 该 对 数 似 然 方程 是 关于 未 知 参 
数 的 方程 ， 可 以 通过 极 大 似 然 估 计 等 方法 求 得 参数 的 估计 值 。 我 们 始终 要 明确 的 是 ， 


w, = P(S = 21 у) = (8.10) 
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马尔 科 夫 状态 转换 模型 的 推断 包括 以 下 部 分 : 一 是 通过 极 大 似 然 估计 法 估计 模型 的 
系数 ; 二 是 推断 状态 序列 S, ,上 = 1,2,…,T。 

EEX y, 服从 4R(1) 过 程 的 状态 转换 模型 的 分 析 可 以 很 容易 地 推广 到 状态 转换 
的 一 般 АКО) 模型 。 在 这 种 情况 中 ， 由 于 5, ,5,.,,…5,.; 在 模型 中 是 不 可 观测 的 ， 我 
们 考虑 yS ,SS 的 联合 密度 函数 。 由 此 , у, 的 边际 密度 函数 f(y, | yy) 为 
M 个 条 件 概率 密度 的 加 权 平 均 。 

在 一 般 情况 中 ， 对 状态 变量 S, 在 不 同 的 信息 集 下 进行 推断 ， 我 们 分 别 可 以 得 
到 滤波 概率 和 平滑 概率 。 滤 波 概率 是 指 根据 从 期 初 到 上 期 的 信息 y, 对 推断 5, 的 
P(S,1 yy) 。 平 滑 概 率 是 指 根据 全 部 样本 信息 yi 对 5, 做 出 推断 P(S,1 yp) , ， 这 可 
以 通过 下 一 节 的 平滑 过 程 得 到 。 


D 第 四 节 平滑 过 程 


在 给 出 模型 参数 估计 的 情况 下 ， 我 们 可 以 根据 样本 的 全 部 信息 来 推断 S, 的 值 。 
前 文 给 出 的 是 滤波 概率 ， 即 为 P(S, = ib y) ,t = 1,2,…,T。 而 这 里 我 们 将 要 讨论 
的 是 平滑 (Smoothing) 概率 ， 即 P(S, 2jl yi) ,上 = 1,2,…,7。 现 将 平滑 过 程 和 过 
滤 过 程 进行 简单 对 比 。 





Ут Vr Ут X, >з У, >, 
HK. Sa o 5 5, 5, 5, 
初始 化 初始 化 
e-— o o 


图 8 -1 平滑 过 程 与 过 滤 过 程 对 比 图 
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表 8 -1 平滑 过 程 与 过 滤 过 程 对 比 表 











计算 方向 概率 适用 情况 
+ P(S, -2il5,))i51,2,-,T 
is T 时 间 顺 序 š 
жїїт | MES TB | ls ape | 基于 全 部 数据 
过 滤 过 程 | 从 第 1 期 顺 时 间 顺 序 计算 | О 225177 | 基于 实时 数据 











根据 过 去 样本 信息 计算 概率 





下 面 ， 就 平滑 概率 的 Kim (1998) 算法 进行 讨论 。 假 设 所 分 析 模 型 仍 为 一 阶 自 回 
归 的 马尔 科 夫 状态 转换 模型 ， 以 下 是 基于 全 部 信息 yw; 的 5,=j 和 5,,， = 上 联合 概率 的 计 
算 过 程 。 
P(S, = jl S, = k,yi) 


= Р(5 = kl уг) x P(S, = jl S, = k,yi) 
= P(S = kl y) x P(S, = j! 5 = ky) 
Р(5 = kl yi) x P(S, = jl у) XPOS. = kl S, = j) 





+1 
жул - (8.11) 
P( S5,41 = kl yi) 


P(S, =jl у) = 3 PCs, =j, Sa = kl yi) (8. 12) 

8.11 rB, 4AF PCS, = jl yi) 和 分 母 中 P(S,,, = ЕІ S, = j) 均 可 由 Hamilton gË 
波 过 程 求 得 。 给 出 最 后 一 期 P(Sr 1 yp) ， 则 通过 式 8. 11 和 式 8.12 对 上 = 1,2,…,7 
进行 迭代 计算 出 其 他 各 期 P(S,1 уг) (= 1,2, T - 1) o 

现 对 式 8. 11 的 第 二 行 和 第 三 行 的 等 价 关 系 进行 推导 ， 即 需要 证 明 : 

P(S = jl Sa = kyi) = PCS, = jl 5 = Ё,у\) 
XT > 上， 定义 ”为 从 :+ 工期 到 了 期 的 观测 值 向 量 。 因 此 有 : 
P(S, = jl 5 = k,yi) 
= P(S, = j! S = ўы) 


B. = dy S, = Е,у) 
Жу | Si = ky) 
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= P(S, = jl 8,1 = k.y, MG | Sa = k,S, = },у\) 
JG | Sn = Ё,у\) 


= P(S, = jl S, = Ёуу,) (8.13) 





式 8. 13 成 立 的 条 件 是 所 yo | S = ES, = Ју) = Ху | Sa = ky), XX 
味 着 如 果 5,, 已 知 ， 那 么 对 y,, 分 布 的 预测 不 再 需要 S, MRE, RA S,, Aly, 已 经 
包含 了 5, 的 信息 。 在 平滑 算法 中 上 式 成 立 ， 所 以 有 式 8.11 和 式 8. 12。 
上 述 平滑 算法 的 推导 可 以 一 般 化 为 一 个 含有 马尔 科 夫 转换 的 有 阶 自 回 归 模 型 ， 
该 模型 由 Hamilton (1989) 提出 。 
PCS, i sya | 91) 
= P(S, 15,8, Aul уу) x P(S, aT Seas? SB i yI) 


= PCS 5 39,59, | yr) x PCS. La 39: 4523**59, 5 9 ul | yr) 
PCS, әз", | yi) 





zu PCS, 127 39,594 | yi) x PCS, sia Seas "эб, | yi) x P(S,, | S,) 
PUS, i ss By зб | yi) 


XP mU GREG k Wr B TBA 6 EAR. (HE КЕШЕНЕ < T 
— k +1308. 14 可 以 分 解 成 式 8.1。 引 人 注意 的 是 ，Kim (1998) 算法 要 比 Hamilton 
(1989) 的 算法 和 Lam (1990) 的 算法 简单 得 多 ， 也 在 很 大 程度 上 节约 了 计算 时 间 。 





(8. 14) 


D 第 五 节 马尔 科 夫 转换 模型 中 5, 状态 的 持续 期 


Pi, е Py, 
转移 概率 矩阵 | : °, 0: | 中 的 对 角 线 上 的 元 素 包 含 着 有 关 持 续 期 的 重要 
Pin c Pu 


信息 。 相 关 的 问题 是 : 如 果 我 们 知道 当期 S, 处 于 7 值 的 状态 (S, = j) ， 那 么 这 种 状 
态 平均 会 持续 多 入? 
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XE X. D H S, 处 于 7 状态 的 持续 期 数 ， 则 有 : 
MRS, =j, Sa 关 j ， 则 持续 1 期 ,D =1,P(D=1)= (1-p,); 
ШЖ S, 25, Sj, Sa 关 7 ， 则 持续 2 期,D = 2, Р(р =2) = p -p,); 


如 果 5, = Si = S, =), 8,43 Æj, 则 持续 3 HH, D = 3 ,P(D 3) =p; (1 = 


Pi) з 
如 果 S, = S = 8, = S, =J, Sua Fl, 则 持续 4 期, D =4,P(D = 4) = 


ру (1 = Peds 
以 此 类 推 ， 则 持续 值 为 ;期 的 期 望 为 : 
E(D) = $PO = p 


=] X P(S, از‎ S, = j) 

+2XP(S =],5 # j| S, = j) 

+3 × ۶)5 4554-49, 57 S, = j) 

+4 x ۶)5, =],5 7,84 = S I j| S, = j) 


Tc 


1 x (1-p;) *2xp,(1-p,) +3 xp;(1 = pj) + 
+ (n =1) xp; (1 = pj) +n xp (1 = pj) 
=1-p, + 2p; — 2р} + 3p; - 3p; Te + (п = 1)ру° 
-(n- 1)ру + пр? - np; 


(1 + py + Pj tv + py ) – np; 





Mn — oif p; —0 ， 所 以 有 : 


1 
1 -p; 





E(D) = Y PD =j) = (8. 15) 


例如 ， 在 Hamilton (1989) 对 美国 季度 СМР 变量 的 研究 模型 中 ， 一 共 含 有 两 种 
状态 ， 状 态 1 表示 经 济 衰退 ， 状 态 2 表示 经 济 繁荣 ， 而 CNP 增长 率 满足 两 个 状态 转 
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(| SSH: 基于 隐蔽 马尔 科 夫 模 型 的 时 序 分 析 方法 


换 的 MS -AR (4) 模型 ， 对 转换 概率 Pi 和 Py 的 估计 值 是 0.7750 和 0.9049。 根 据 
式 8. 15， 对 这 两 种 状态 的 持续 期 估计 分 别 是 : 


1 1 
о ера а = 10. 42 


1 – 0. 9040 
也 就 是 说 ,平均 意义 上 来 看 ， 一 个 衰退 期 和 繁荣 期 分 别 持 续 4.08 和 10. 42 个 
季度 。 
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MS - AR 模型 的 估计 方法 


D 第 一 节 MS- AR 模型 参数 估计 初步 


相对 于 普通 的 线性 模型 来 说 ，MS - AR 模型 的 估计 更 为 复杂 。 我 们 首先 通过 一 
个 简单 的 例子 来 说 明 估计 MS — AR 模型 的 复杂 性 。 假 设 MS - AR 模型 中 观测 值 y, 不 
具有 序列 相关 性 ， 即 y, A f(y asy , S, 服从 独立 转换 过 程 且 不 能 被 观测 到 ， 在 
这 一 简化 MS - AR 模型 中 对 数 似 然 函数 的 最 大 化 问题 为 : 











T 1 (э-җйбо)? 1 Qux)? 
тах lnL = max ln | е wm ‘pt e x • (1 -p)] 
BoB... BoB. 11 | ,/2 тое V2 mo 


(9.1) 
对 数 似 然 函数 对 各 个 参数 求 一 阶 微分 ， 从 而 可 以 估计 求 得 模型 中 的 参数 ， 具 体 
步骤 和 解法 如 下 。 
ЕЕ Bo 的 最 优 解 


式 9.1 对 po 求 一 阶 微分 得 : 





Әһ, _ 9[ Y. у, | ¢.1)] _ yt alnf(y, | 9,4) 
dB — 38o š a 380 


(yr_xB0)2 


T 1 x 
= X eo Jy x [- 550: 7 мы) x2(-x)]] 
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£ 1-180)? 
205 
> (y, = x,Boy)x, = 0 
X Lee a o В, 
_ Ox х181)2 
如 令 = 2, ۵ 9 Ji] : 
a | Ф,_ 1) 


Y aan = % Bo)", = 0 
2X. A = > xf 
Y аул, Y Qn) ar) 





эб, = Y ui = x Cx 
Y, 
Hy Je = = х8, + €, 得 到 : Ве = = Ху о 


X. E 
PHVA Jz, , WE zy = /zx B, + Wie o 


Y, | (fem) (fen) 
= Ё (i) 





所 以 在 z 给 定 的 条 件 下 , BS = Ж шу, = «2,8, + ze, 的 


回归 系数 。 
GA Jay, = уг, Мах, = х7, Мав, = ef ， 则 式 9.1 的 最 优 解 是 y* =x Bote 
的 回归 系数 。 
—. 8, 的 最 优 解 
式 9.1 对 B, 求 一 阶 微分 得 : 


olnL _ al ALCA p11)] T Ж alnf( y, | Ф.) 
9p, 7 9p, AS! 9B, 








Loue? 1 
= XL[o eo fu x [= 32, = 380 x2(- aO] | 


T OB)? 
e 22 
= Ў WT. x44 MBs = 0 
2 ii 9,4) ^ Bi 
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(281)? 
e 22 


如 令 z = ‚Йй 
fd ea) 





|: 
т 
Di бю = ahi) t = 0 
T T 
> У, 127, = Y, Bı 


у. UA D lam) Glen) 





эй = s ` 
| MET. X Gne) 
T 
^ ^T 
Wy сав +0, Ва = 2009, 


X4 
两 边 同 乘 Jz, , 可 得 Jay, = z,X By + 2,8, 9 


У,' fee) fer) 
an (fiin) 





所 以 在 z 给 定 的 条 件 下 , Bo = Æ Vay, = „Гах В, + se, 的 


回归 系数 。 


# zy, = у, feit = х; , /z,e, = e, , 569.1 的 最 优 解 是 7y” 三 x, В, +e; 
的 回归 系数 。 


= o= 的 最 优 解 
对 式 9.1 R od 的 一 阶 微分 得 : 


ӘӘ, _ al > | infty, | ¢.1)] 





2 2 
00% до 


Lyn Ho еы 


2 
00% 


= T 1 9f( y, | Pii) 
i ZR фа) дао? 





т | 1 - 2m (2то%) "^ Gem? 24-12 
= - e 22 p*(2mo) “e 
2 Gl ga) 2 Bid 


_ (1-802 
260 
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[- &z3& ( (o) °p] 


20 2 





(ye-x80)? 
> 2 
200 








Is 2, 


=0 
_ (rs Bo)? 
e 2 
= , 则 : 
K Yı l Ф,-1 ) 


(y, = xy)" p _ 


C REENE: ж-на RA MMR ATI 


р 





Qa 200, 


Y. AL Gs = % Bo)” - 0%] 20, 
=>" Хэ, — x ADU = n 
Y us s - х8)? 


2 
=o, = 





Т 


2, 
2d f 


от 的 最 优 解 


对 式 9. 1 求 06 的 一 阶 微分 得 : 


aly" inf! e] 





д1п/, ü 
ao; дс! 
ze] до? 
= d 1 afCy, | e.a) 
Қу pa) ао? 
= Y { 1 _ 27 (2mo1)^ . 
т: Ку, | 9,4) 2 





2 af 2m0, 


Gi Bi)? 





E И 1) (а) 
1 


Ore =)? 
T e 20 





(y, - x B.) °p = 


P 





Е PAM уе $4) 


2. ww 270; 


2 /2ma1 


| 


| 


= 0 


Y- xy)? 


е ® p+ (Que?) e ШШ зе] 
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(yg)? 





e 202 T » 
< z, - fly | cd ‚ 00: Y as -xi) -oi] =0 


=>" A60 = xB = = >. (2.01 


T yo 2, (x, — xB, )°) 


=O) = T 
У.а 








E. p 的 最 优 解 


XX 9. LoK p 的 一 阶 微分 得 : 





alnk _ aly! fo! e] - yr PAO eu) 









































др др P др 
e^ ef? 1 
= Р 1 一 = 1 _ = y 1]. 
HP = Tp j r+” ise’ ™ 
E 1 L age? ee (1 + e°) — ghe 
ð po rel f(y, | 9,4) 2ro; ° (1 +e)? 
1 Osh)? 
+ ب‎ QQ 
AO RFI 
ق‎ e" 1 — 
T 
=D [тау qa) Ed ^ (ey Nm * 41 PES ПЕ ТҮ ° е 
T e? 1 人 1 (nul)? 1 _ (1-81)? 
=> p up = е 2 | -0 
X (1 IE rE 9,4) 2m0, „/2та? | 
T 1 
=> —— = 
Lg 9,4) 


通过 上 式 很 难 求 出 po 的 最 优 解 。 不 仅 如 此 ， 仔 细 观 察 之 后 不 难 发 现 我 们 前 面 所 
使 用 的 权 数 z, 在 计算 过 程 中 需要 计算 f(y, pa) ， 而 该 式 本 身 就 含有 未 知 参数 。 所 
以 ， 以 上 的 处 理 办 法 在 现实 中 是 不 可 行 的， 需要 更 为 复杂 的 处 理 办 法 来 解决 以 上 参 
数 的 估计 问题 。 但 以 上 这 种 按照 一 般 思 路 来 解 问题 的 方法 也 给 我 们 很 多 直观 的 认识 。 
现 有 的 研究 中 ， 最 常用 的 处 理 办 法 就 是 我 们 在 第 二 部 分 所 讨论 过 的 EM 算法 ,采用 
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сеня. 基于 隐 项 马尔 科 夫 模型 的 时 序 分 析 方法 


特殊 形式 一 “ 焙 ” 的 形式 一 一 来 表达 似 然 函 数 。 


及 第 二 节 MS- AR 模型 参数 的 EM 算法 


我 们 前 面 提 到 ， 如 果 模 型 存在 观测 值 缺失 或 者 含有 不 可 观测 变量 ,那么 EM Ж 
法 在 模型 极 大 似 然 函 数 估计 中 是 一 个 可 选 的 方法 。 假 设 该 模型 的 未 知 参数 9 є Ө, 
其 中 Ө 为 参数 空间 。EM 算法 是 一 个 包含 “预期 ”( Expectation) 和 “最 大 化 ” 
(Maximization) 两 个 步骤 的 不 断 和 迭代 的 计算 过 程 ， 即 : 

1. 利用 第 (k - 1) 阶 送 代 中 得 到 的 参数 估计 值 , REAT RIEA A 
变量 S, 的 预期 值 ; 

2. 用 此 不 可 观测 变量 S, 的 预期 值 代替 其 自身 ， 带 入 似 然 函 数 ， 并 通过 最 大 似 然 
法 得 到 参数 的 上 阶 最 优 值 6” Q 

每 次 妈 代 都 可 以 改进 似 然 函 数 的 估计 值 。 因 此 ， 我 们 可 以 通过 给 定 参 数 初 始 值 
0° ， 不 断 重 复 上 述 两 个 步 又， 一 直 进行 到 Ө 收敛 为 止 。 下 面 ， 我 们 基于 Hamilton 
(1989) 的 马尔 科 夫 转换 模型 来 讨论 EM 算法 的 具体 步骤 。 

考虑 下 面 两 状态 的 MS - AR 模型 : 


y, = x B, +, 
е, ~ N(0,0) 
B, = &(0 - $) + B.S, 
сі = 05(1- S,) +015, 


P(S, = 11 S. = 1) = py 
P(S, = 01 $,, = 0) = po 

假设 其 中 的 向 量 * 由 外 生变 量 或 者 前 定 变量 组 成 ， 并 且 S, All x, 相互 独立 。 我 们 

可 以 将 上 述 模型 的 参数 分 成 两 组 9 = (0',,0',)' ， 第 一 组 参数 9 = (B'0,B'1 ,00,01)" 
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相当 于 普通 线性 回归 中 的 待 估 参 数 ， 第 二 组 参数 9，= (pm ,pi) ' 为 MS - AR 模型 
Ht @ UR AS FF Be Ж FE BE dh 00 BBW Фу = (6 a SE E 
(S, Sas S3, =, Sp)", SM TRUST 的 联合 密度 函数 以 及 对 数 似 然 函 数 可 以 写成 : 


p(yY1,S1;0) = p(y | 8156) pCST:02) 


T T 


= TECA S,;0,) П>. S,-1 342) (9. 2) 


In[ p(y S130) ] = >, lal pt, | 3.50 ) ] + У, Inf PCS, | $,1562)] (9.3) 
如 果 ST 是 可 观测 的 ， 也 就 是 说 S17 是 已 知 的 和 固定 的 ， 那么 ， 上 述 似 然 函 数 最 
大 化 将 与 0, 无 关 ， 似 然 函 数 可 以 只 通过 Ө, 达到 最 大 化 : 








aln[p(y1,S1;0)] _ y alnlp(y,| $560]. ۾‎ (9.4) 


86, 86, 
如 果 ST ANAT LAS, FETT AT ASE AE РЖ “SS” (Entropy) 形式 的 似 然 
PR: 


L(0;y1,0*") = [intpGT. S738) Ip(y7, 8730"? ) 
sT 


= [IntpGt | 5ї;@,)р(5ї;®;) ]P(7 S136"? ) 
了 
= [їр]! $756.) + InpGSTi6) ]pGT,558 ) — (9.5) 


S 
5 


上 式 中 的 概率 P(y7 51,07?) ko 条件 下 得 出 的 , 并且 | = Y, Y Y 


成 立 。 
为 求 出 关于 0, 的 最 大 似 然 估计 值 ， 我 们 对 参数 Ө, 求 偏 导 ， 这 样 可 以 得 到 : 


1(0;ут,0%70) _ = $156.) ] 


T T (k-1) 
35130 
86, 06, PCy +S ) 





1 


MRAR PCED = p(B A) , ЖЕЗКЕНТ oT 077) 得 到 
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(| REA. 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方法 





[ee $556.) ] POT $1507 ) _ 
57 0, p(y 0) 


1 "| Sr, 
д n[ p(y; 601 (gri y, 9441) zd 








5 90, 
根据 式 9. 4: 
aln{ p(yt S138) ] _ y aln[ p(y, | S,;0,)] 
90, = 90, 
将 yi BOW y, 可 推出 : 





[езеш S1;01)] 


т" p(St | y1,007? ) 
1 


T 
5 


Z aln[p(y, | $,58,)] 
| % 7 





p(Sr | yrs0 7) 


T 
5j 





p(STI yr;0 °) 


al [ ( ,| S,30,) J 
=|) mr 


T aln[p(y,! 5,;0,)] 
= | 2, д0, 





[p S..5..1 y1,50 ^) 
5, 


7 al | S, 
- | Y try S301 s | 41,07 ) 
1 


т aln[ p(y, | 5,;6,) ] _ 
ы 2M m mee 1570 yi 0) = 0 (9.6) 
- 


FHA SSS k UE RIB BHA 0° 。 这 里 的 p(S, 1 1,0777 ) 是 根据 
YrsYra sy 推出 的 平滑 概率 y, ， 因 此 比较 式 9. 3 55509. 6 可 知 , 359.6 rh 0 E: 0, 
在 大 阶 迁 代 所 得 出 的 最 大 似 然 估 计 值 ， 并 且 是 经 过 加 权 平均 (权重 为 5, ) 后 ,在 上 
一 期 迭代 值 077? 的 条 件 下 得 出 的 平滑 概率 。 

我 们 可 以 根据 式 9.6 得 到 0° = (В 817 00° ,01 )' 的 具体 形式 。 已 知 $， 

=j, W 
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| 1 1 1 (y, = %8) 
Inf p(y! S, = 460] =- Ао (2л) - (Ing?) - 2 02980 


i 


将 上 式 代入 式 9.5， 并 对 参数 B REG: 


L dln[p(y,! S,) ] 
t t S, | 15,977 
之 2 NE _ PCS, | yi ) 


T 
X, . = 
= У, Asc 38)р(5, = Jl 017500) = 0 
i 





同 理 对 о; 求 导 得 : 
! al X 
Y Y alely, JJ cs. | y7 0*۳ ) 
=1 5,20 дс; 
SJ 1 1 (y = xB) 
Yep =!) = 0: 
iz 20; 2 о 


由 此 可 以 得 出 8 Alo : 


T . 一 
Y, xyp(S m jl yi 0) 
T $ ج‎ 
3, PS, = jl yi 30" 20. 





(k) _ 
g^ 








T m H - 
X... Us VG, =F) уб”) ][у, Vp(S = jl y5077)].— "A 
= T = = 2 = , 
E a Us pS, = fl yrs) 








(9.7) 


7 
(y, = x Bj? VPS, = j| yrs0 7) 
oí? = [E : ј= 0,1 (9.8) 


XL, = 1015099) 








通过 式 9.7 和 式 9.8 可 以 看 出 Bf” By, = Bi? x, + e, 经 过 回归 所 得 的 参数 ， 
其 中 : 





y, = у, /Р(5, = j| yr 0070) 


š, = x Vp(S = j| yr 077) 
同样 ， 采 用 类 似 方法 ， 如 式 9.5 和 式 9.6， 可 知 : 
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复兴 科技 : 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方法 





Y ns, 235,4. &tl y 30°) 
у, eS. = il y7;6") 
EM 方法 的 一 个 优点 在 于 在 求 极 大 值 的 步骤 中 很 容易 得 出 参数 的 估计 值 ， 不 

需要 很 复杂 的 求 最 优 解 的 过 程 ， 并 且 这 种 方法 对 于 参数 初始 值 选择 来 讲 具 有 稳 


健 性 。 


(k) _ 


n = 





1 
š k) 
Ј= 0,1; У, ру = 1 
£ 


D 第 三 节 MS- AR (0 模型 的 详细 计算 过 程 : Excel 
应 用 


对 于 简单 的 回归 模型 : y; =Q + Bx; +:6 3 采用 最 小 二 乘法 可 以 求 出 参数 а, fll B, 
ШИН, Bp: 





Š > Cy; = y) (x; = x) 

Bis = 2 
У (x, - x) 

Qt, = y - By x 


通过 Excel 进行 回归 ， 求 出 w AB, 的 步骤 如 表 9 -1。 






































9-1 
yi Z; (y, — ») (x, — x) (y; - 3) (x - x) (x, - x)? 
Yı х1 (у -») (x, - x) (у, - X) (а - x) (xj -x) 
Уз X, (x -») (x, – x) (y, - 3), - x) (x, - x)? 
l | АНЕ. 
Yn x, (y, — X) (x, — x) (y, = 5) (ж, 一元) (x, - à) 
Èy, У x: = == А = У i - y) (x, - 2) B= > (x, - x)° 
ӯ i = = = = 
A ——————— ————— 


根据 表 中 的 内 容 ， 可 以 求 出 B= & , û, = y да. 
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第 九 章 | MS - AR 模型 的 估计 


一 、MS -AR (1) 模型 的 具体 算法 回顾 


1. 初始 值 
一 阶 自 回 归 模 型 : у, = as + Ву te, e ~ iid. №0,0?) 
可 以 转化 为 : y, = ys, = Ba 7s) tu, v, ~ Lid. N(0,o$ ) 
参数 包括 : B Joi r, o HP 5o, o0 oi 决定 正 态 分 布 的 参数 ;马尔 科 夫 
转换 矩阵 的 参数 为 pw Pr ; 8 = [P(S, = 0) ,PCS, = 1)]' 是 稳定 状态 分 布 。 
2. 过 滤 过 程 
预测 过 程 : 
FD = E, Y, Sa) 
adus afl Sos of PCR Lp) 
更 新 过 程 : 
P(S, = وکر‎ = 11 yi) 


Krl S, =J, Sir = 4,31 )P(S, =],5,, = il у!)‏ ا 
M M Š ë t= . . t-‏ = 
X ser dus f(| 5 = 35,1 cix PCS, = LSU = il yr)‏ 





fi: P(S, 2 jl) = X, PCS, 2 5S = il у) 
з. 平滑 过 程 ; 
P(S, = jl X) = X, PCS, =],5 = kl yî) 
4. 估计 过 程 : EM 算法 
E als PS, = 11 TO 1[y, pS, = FD] 


х (x, Vp(S, =]! y150 7) 


T : - 
(k) pe (y, - х8} )"p( S, =]! yi0“ A) 
G = 7 ; - 
| Y PG, =]! yi0“ шу 














Ch) a 
В; т 
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; = >, (8 =j,S = il 30°) 
DPS sdb nud) 

5. 判断 收敛 

如 果 收 敛 ， 即 得 出 结果 ; 

pes 执行 第 6 步 。 


6. 更 新 初始 值 ， 返 回 2。 





二 、MS -AR (1) 模型 算法 在 Excel 中 的 应 用 过 程 


1. 初始 值 的 设 定 : B yo y 05,01 Poo P11 , 并 据 此 计算 出 : 


2. 过 滤 过 程 : Fl 一 F21 
(1) 求 P(S, 201 у!) 和 P(S, = 11 yr!) f; FI—F6 
(2) oR f(y, | у): F7—F8 

(3) 更 新 数据 : SK PCS, | уг) : F9—F21 

3. 平滑 过 程 : Al 一 A2 

初始 值 : PCS, = 01 yr) 和 PCSr = 110 у) 

xk P(S, = 01у) 和 P(S = 11 уу): Al 一 A6 

4. 估计 过 程 : EI—EA 

5. 判断 收敛 : 


ak 
若 满 足 收敛 条 件 : “一 + < 0.01 ， 则 得 出 结果 ; 否则 进入 第 6 步 。 


6. 计算 出 参数 值 6,70 yi ,oa ,07 Poo ри 9 重复 2 到 6。 
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基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方法 
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,| Ишен: 基于 隐 项 马尔 科 夫 模型 的 时 序 分 析 方法 


5. 估计 过 程 : EM 算法 : 






































表 9 -5 
El E2 E3 FA 
Yo, Fia Xo, Xi, 
y |x | y PIS 01x] | у, VPIS, 51105] E PIS, = 0151] | VPLS, = 11 у] 
л |а |y, VPLS, 201 i] | v, V PES, = 11 y] |^ WP[S 2011] |x, VPIS, 211 yi] 
Yr | Yr | yr VPLS, = 01 у] OER foe EE e ЕА 
| y; As Y; JAg X; af As x; VAs 








H EM 算法 可 知 ， 通 过 yo, Mx, 回归 可 以 得 到 Bo, yu x, 
这 样 ， 我 们 根据 前 面 的 运算 结果 可 以 求 出 : 








,回归 可 以 得 到 p。 





à _ УЛ _ E, X E, x As _ Yu _ E, X E, x Ag 
HT. — X4. ШЕ МЕ 
H EM 算法 又 知 : 
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得 出 oo Filo, : 
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同样 ， 我 们 由 EM 算法 可 知 : 
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, 因此 ， 可 以 得 出 Poo 和 Pi : 


i и 
2-p-q 





mex. - AR 
模型 应 用 


以 上 三 部 分 内 容 讲解 了 HMM 和 MS - AR 模型 的 设置 、 估 计 、 预 测 等 理论 内 容 ， 
本 部 分 将 介绍 这 些 理论 模型 在 宏观 经 济 研究 、 金 融 投资 研究 等 实际 操作 领域 中 的 
应 用 。 

金融 投资 不 能 脱离 具体 的 宏观 经 济 形势 ， 需 要 以 宏观 基本 面 为 基础 选择 投资 时 
机 和 投资 策略 。 所 以 ， 第 十 章 首 先 以 中 国 和 美国 的 CDP 数据 为 例 ， 介 绍 如 何 将 MS 
- AR 模型 应 用 于 宏观 经 济 研 究 领域 。 具 体 来 说 ， 即 如 何 判 断 过 去 和 将 来 经 济 运行 
的 方向 及 概率 分 布 。Hamilton (1989) 不 仅 是 MS - AR 模型 在 宏观 经 济 领域 研究 的 
典范 ， 而 且 也 对 后 面 金融 领域 市 场 阶段 的 划分 起 到 很 强 的 借鉴 作用 。 所 以 ， 该 章 将 
MS - AR 模型 应 用 于 中 国 和 美国 宏观 经 济 研究 ， 并 介绍 Kim 和 Nelson (1999) 对 该 
模型 做 出 了 一 些 贡 献 。 

然后 ， 第 十 一 章 将 介绍 如 何 把 HMM 和 MS - AR 模型 应 用 于 我 国 股票 市 场 研 究 。 
金融 市 场 的 特征 之 一 就 是 均值 和 方差 会 随时 间 和 市 场 形 态 而 发 生变 化 。 根 据 这 些 特 
点 ， 这 部 分 内 容 可 以 帮助 我 们 解决 两 个 问题 : 股票 市 场 中 的 牛市 和 熊市 如 何 划分 ; 
如 何 判断 市 场 风 险 的 阶段 变化 。 解 决 第 一 个 问题 需要 利用 HMM ， 考 虑 无 序列 相关 或 
有 序列 直接 相关 的 均值 转换 模型 ;第 二 个 问题 需要 考虑 带 方差 转换 的 SWARCH 模 
型 。 我 们 希望 通过 这 几 个 模型 的 建立 和 求解 ， 能 够 了 解 我 国 股票 市 场 运行 的 基本 特 
征 ， 为 投资 者 提供 可 以 获取 “超额 信息 ”的 可 靠 方法 ， 为 后 续 研 究竟 定 坚实 的 
基础 。 











MS — AR 模型 在 宏观 经 济 分 析 中 的 应 用 


D 第 一 节 简单 MS - AR (1) 经 济 波动 模型 


在 用 MS — AR 模型 研究 经 济 周期 或 经 济 波动 时 ， 转 折 点 (Turning Point) 的 识 
别 对 于 宏观 经 济 政策 具有 很 重大 的 意义 。 转 折 点 代表 数据 中 固有 的 结构 性 变化 ， 从 
而 将 前 后 两 个 阶段 的 数据 显著 地 区 分 开 。 这 种 模型 的 一 个 重要 特点 在 于 : 对 经 济 波 
动 中 的 非 线 性 和 不 对 称 性 特征 能 够 很 好 地 描述 。 例 如 Hamilton (1989) 假设 经 济 周 
期 分 为 衰退 和 扩张 两 个 时 期 从 而 利用 两 状态 马尔 科 夫 转换 模型 描述 实际 GNP 增 
长 率 。 | 

下 面 ， 我 们 将 运用 简单 的 一 阶 自 相 关 马 尔 科 夫 转 换 模型 ， 即 MR - AR (1) Ж 
型 ， 对 我 国 的 СОР 数据 进行 分 析 ， 以 下 采用 中 国 1999—2012 年 GDP 季度 数据 。 根 
据 Harvey (1989) 的 研究 结论 ， 时 间 序 列 结构 化 模型 要 考虑 变量 的 季节 性 成 分 、 趋 
势 性 成 分 、 周 期 性 成 分 等 。 所 以 ， 首 先 将 水 平 数据 去 掉 季 节 性 因素 ， 再 转化 为 增长 
率 数据 ， 以 去 掉 趋 势 性 成 分 ， 那 么 经 过 处 理 数据 可 以 视 为 只 含 周 期 性 成 分 和 随机 成 
分 的 序列 。 将 得 到 的 时 间 序 列 记 为 Ay, ， 考 虑 下 面 简 单 的 变 均值 的 MS -AR (1) 
Ting. 


(Ay, = us) = @ (Ay, — Ms.) + 8, , 8, ~ii d. N(0,0) (10. 1) 
Ms, = po (1 = 8,) + д5, (10. 2) 
POS, 2115, 51) =p (10. 3) 
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атна: 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方法 


(ul 
VÀ. 


P(S, 2015,, 20) =q (10.4) 
用 Matlab 程序 进行 处 理 , 平滑 概率 的 计算 结果 如 下 : 








с oo c © w 
© ° © = = 
° о о © © 
N еч N N N 


1999 
2000 
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2005 
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2001 
2002 
2003 


10-1 中 国 经 济 状态 平滑 概率 


图 10 -1 中 状态 1 的 均值 较 大 ， 所 以 状态 1 对 应 着 经 济 周期 中 的 膨胀 状态 ， 在 
图 中 用 实 线 表示 ; 状态 0 的 均值 较 小 ， 对 应 着 衰退 状态 ， 在 图 中 用 虚线 表示 。 从 中 
国 季度 GDP 数据 的 分 析 结 果 中 不 难看 出 ， 在 1999 一 2003 年 ， 中 国 经 济 处 于 较 低 的 
增长 区 间 ， 从 2004 年 至 2008 年 下 半年 中 国 经 济 保持 了 较 高 的 增长 率 ， 而 在 2009 年 
之 后 经 济 运行 缺乏 稳定 性 ， 经 济 波动 性 加 大 。 利 用 这 一 部 分 样本 可 以 发 现 ， 状 态 0 
和 状态 1 呈现 交替 出 现 的 态势 ， 两 个 状态 的 转移 矩阵 为 : 
0.97 0.03 
n ы 
所 以 ， 从 理论 上 来 讲 ， 状 态 1 持续 期 大 致 为 1/ (1-0.97) =33 个 季度 ， 状 态 
2 持续 期 稍 短 ， 大 致 为 1/ (1 -0.96) 225 个 季度 。 
同 理 ， 利 用 美国 同期 CDP 季度 数据 进行 分 析 得 到 平滑 概率 计算 结果 如 图 10 -2 
所 示 : 
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第 十 章 | MS -AR 模型 在 宏观 经 ; 
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10-2 美国 经 济 状态 平滑 概率 


参照 前 面 对 中 国 经 济 分 析 的 思路 ， 图 中 状态 1 对 应 着 经 济 周期 中 的 膨胀 状态 ， 
用 实 线 表示 ; 状态 0 为 经 济 周期 的 衰退 阶段 ， 用 虚线 表示 。 美 国 在 2000 年 下 半年 到 
2003 年 上 半年 处 于 经 济 周期 的 衰退 阶段 ， 之 后 经 济 好 转 并 保持 了 较 高 的 增长 率 。 但 
是 在 2008 年 上 半年 重新 落 和 人 衰退 阶段 ， 至 今 并 未 有 明显 迹象 表明 美国 经 济 已 经 处 于 
膨胀 阶段 。 这 与 美国 国家 经 济 研究 局 (NBERO) 发 布 的 官方 经 济 周 期 是 基本 一 致 
的 。 根 据 NBER 公布 的 数据 显示 ， 美 国 经 济 在 2001 年 上 半年 开始 出 现 衰退 趋势 ， 并 
ТЕ 2001 年 11 月 达到 谷底 ， 之 后 于 2007 年 10 月 开始 再 次 滑 向 谷底 。 

美国 经 济 状 态 转移 矩阵 与 中 国 经 济 状 态 转移 矩阵 相同 ， 持 续 期 也 都 相同 。 在 过 
去 的 15 年 间 ， 作 为 最 大 的 发 达 国家 和 最 大 的 发 展 中 国家 ， 美 国 和 中 国 经 济 体现 出 周 
期 长 度 的 基本 一 致 性 。 但 是 ， 这 并 不 意味 着 中 美 两 国 在 经 济 周期 问题 上 具有 同步 性 ， 
从 图 中 也 可 以 发 现 ， 两 者 所 经 历 的 经 济 周期 各 个 阶段 在 时 间 点 上 有 所 差别 2 。 

正如 本 节 开 始 所 言 ， 这 是 一 个 简单 的 MS - AR (1) 模型 ， 所 以 得 到 的 结论 也 只 
是 为 了 说 明 模 型 的 使 用 方法 和 实际 应 用 中 的 基本 效果 ， 还 有 很 大 的 改进 余地 。MS - 





(D http: //www. nber. org. 
Q ”这 是 由 两 国 发 展 中 的 客观 实际 决定 的 ,包括 发 展 模式 和 发 展 阶段 等 。 目 前 来 看 ， 两 国 均 未 摆脱 经 济 发 
展 中 的 训 退 周期 ， 但 也 许 是 因为 增长 趋势 的 永久 变化 ， 这 里 不 展开 讨论 。 
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复兴 科技 : 基于 隐 项 马尔 科 夫 模型 的 时 序 分 析 方法 





AR (1) 模型 没有 Hamilton (1989) 的 MS- AR (4) 模型 复杂 ， 但 有 趣 的 是 ， 二 者 
计算 结果 很 接近 。 下 面 ， 我 们 将 详细 讨论 Hamilton (1989) 的 MS -AR (4) 模型 。 
该 模型 不 仅 在 宏观 经 济 分 析 中 得 到 广泛 采用 ， 在 金融 市 场 分 析 中 也 发 挥 着 重要 的 
作用 。 


D 第 二 节 Hamilton( 1989) 和 Kim, Nelson (1999) 的 
MS - AR (4) 经 济 波动 模型 


本 节 将 重点 讨论 Hamilton (1989) 经 济 波动 的 MS — AR (4) 模型 。Hamilton 
(1989) 将 马尔 科 夫 转换 模型 应 用 到 经 济 波动 的 分 析 中 ， 着 重 强 调转 折 点 的 内 生性 。 
这 类 模型 的 重要 特征 就 是 它们 能 够 很 好 地 描述 经 济 波动 中 非 线性 动态 或 者 不 对 称 性 
因素 。 例 如 ， 在 Hamilton (1989) 的 两 状态 马尔 科 夫 转换 过 程 中 ,我 们 可 以 通过 
GNP 增长 率 所 处 的 不 同 状态 ， 来 区 别 出 衰 退 与 膨胀 两 种 经 济 状态 的 动态 变化 。Ham- 
Шоп (1989) 的 MS -AR (4) 模型 如 下 : 

(Ду, = ju, ) = @ (Ay, =) + @;( Ay, n, + °° 
+ Фф (Ау, = р.) +8, , 8, ~ L L d. №0,а?) (10. 5) 
Hs, = Mo(1 - S,) + 458, 
P(S, = 118,1 21) =p 
P(S, 2015,, 20) =q 

其 中 , p(L) = (1-eL--- -e,L') =0 的 根 落 在 单位 圆 外 面 , y, 是 第 + 期 实际 
GDP 或 GNP 的 对 数值 , Ay, 可 用 来 表示 第 + 期 实际 GDP 或 GNP 的 增长 率 。 

Kim, Nelson (1999) 利用 Hamilton (1989) 中 的 样本 数据 ， 即 从 1952 年 第 二 
季度 到 1984 年 第 四 季度 美国 季度 GNP 数据 ， 采 用 EM 算法 估计 模型 式 10.5。 从 得 
到 的 参数 估计 和 状态 序列 估计 来 看 ，Kim，Nelson (1999) 和 Hamilton (1989) 的 结 


138 


第 十 章 | MS -AR 模型 在 宏观 经 济 分 析 中 | 





果 非 常 接近 。Kim，Nelson (1999) 的 估计 结果 在 表 10 -1 中 给 出 。 图 10 -3 到 图 10 
-5 分 别 描述 了 衰退 时 期 的 滤波 概率 PCS, = Ol y.) 、 平 滑 概 率 P(S, 201 yp) 和 一 
步 预测 概率 PCS, = Ol yi), MS- AR (4) 模型 的 计算 结果 与 美国 国家 经 济 研究 局 
的 周期 高 度 吻 合 。 


表 10 -1 Hamilton (1989) MS -AR (4) 的 参数 估计 
































参数 估计 值 标准 差 
p 0. 9008 0. 0443 
q 0. 7606 0. 1206 

ei 0. 0898 0. 1981 
e; — 0. 0186 0. 2082 
Ф; - 0. 1743 0. 1381 
Фа — 0. 0839 0. 1248 
с 0. 7962 0. 0858 
m - 0. 2132 | 0. 2613 
ш 1. 1283 0. 1596 








数据 来 源 : Kim, Nelson (1999). 
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图 10-3 衰退 时 期 的 滤波 概率 (GDP: 1952: H —1984: IV) 
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图 10 -4 衰退 时 期 的 平滑 概率 (GDP: 1952: H —1984: IV) 
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10-5 衰退 时 期 的 一 步 预 测 概率 (GDP: 1952: H —1984: IV) 
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$ $ ` Kim, Nelson (1999) 加 入 虚拟 变量 的 
MS - AR (4) 模型 


经 济 经 历 着 一 次 又 一 次 的 衰退 和 膨胀 ， 但 值得 注意 的 是 ， 这 些 衰退 阶段 之 间或 
膨胀 阶段 之 间 也 是 存在 区 别 的 。 比 如 ， 上 一 次 牛市 阶段 能 够 达到 日 均 回 报 率 不 一 定 
成 为 下 一 次 牛市 中 指数 的 日 均 回 报 率 ， 上 一 次 经 济 膨胀 中 经 济 的 年 均 增 长 率 不 一 定 
会 在 下 一 个 膨胀 阶段 中 得 到 同样 的 保持 。 从 分 类 方法 的 角度 看 ， 样 本 不 仅 存在 组 间 
差别 ， 同 样 存在 组 内 差别 。 当 组 内 差别 较为 显著 的 时 候 ， 就 需要 对 模型 设置 进行 一 
定 的 纠正 ， 从 而 能 更 准确 地 对 状态 变量 进行 估计 。 

Kim, Nelson (1999) 从 这 样 的 思考 角度 发 现 : 如 果 在 样本 中 再 加 入 一 些 年 份 的 
数据 (1952; П – 1995; IIT) ， 模 型 难以 提供 合理 的 估计 参数 ， 因 而 就 难以 推断 出 合 
理 的 衰退 或 繁荣 的 概率 。 可 能 的 主要 原因 是 模型 并 没有 考虑 20 世纪 90 年 代 美国 的 
劳动 生产 率 下 降 的 问题 ， 另 一 个 原因 可 能 是 ， 即 使 美国 这 一 时 期 不 存在 劳动 生产 率 
下 降 的 问题 ， 货 币 政策 对 经 济 稳定 有 着 越 来 越 重要 的 作用 。 考 虑 到 上 述 因 素 ，Kim， 
Nelson (1999) 将 模型 的 均值 方程 修改 为 : 

Ms, = (Mo * uo * D,) (1 -S,) + (ш +д ° D,)S, (10. 6) 

其 中 , D, 是 一 个 虚拟 变量 ， 样 本 为 1983: 1- 1995; II 时 取 1， 为 早期 样本 时 取 
0。 虚 拟 变量 的 引入 潜在 地 控制 了 在 繁荣 或 衰退 期 间 平 均 增长 率 的 变化 。 

表 10 -2 带 虚 拟 变量 的 MS - AR (4) 模型 参数 估计 

膨胀 和 衰退 时 均值 都 有 变化 仅 脱 胀 阶段 均值 有 变化 

参数 估计 值 标准 差 估计 值 标准 差 


p 0.9113 0. 0363 0. 9187 
q 0. 7658 0. 0357 0. 7668 


























Pı 0. 0496 0. 1347 0. 0477 
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HAR: 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方 法 
续 表 

膨胀 和 衰退 时 均值 都 有 变化 仅 膨 胀 阶段 均值 有 变化 
参数 估计 值 标准 差 估计 值 标准 差 
$2 - 0. 0495 0. 1295 -0. 0422 0. 1103 
P3 -0. 2112 0. 1129 - 0. 2095 0. 1008 
Фа — 0. 0953 0. 1140 - 0. 0984 0. 0970 
o? 0. 6902 0. 0505 0. 6939 0. 0474 
Ho - 0. 2996 0. 1392 - 0. 2328 0. 1895 
ш 1. 1479 0. 0768 1.1510 0. 0776 

Ho 0. 4516 0. 3209 一 一 
pr -0. 3346 0. 1240 - 0. 3699 0. 1244 

极 大 似 然 值 -212.17 








1 
0.9 
0.8 
0.7 
0.6 
0.5 
0.4 
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数据 来 源 : Kim, 
表 10 -2 的 第 2 列 和 第 4 列 给 出 了 上 述 模 型 的 估计 参数 。 图 10 -9 和 图 10 - 10 
给 出 了 衰退 时 期 的 过 滤 概 率 和 平滑 概率 。 这 些 概 率 和 美国 国家 经 济 研 究 局 的 参考 周 
期 吻合 度 很 高 。 























| 
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图 10 -6 衰退 时 期 的 滤波 概率 (GDP; 1952: H —1995: Ш) 








Nelson (1999) 。 
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图 10 -7 衰退 时 期 的 一 步 预 测 概率 (GDP: 1952; 
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图 10 -8 衰退 时 期 的 平滑 概率 (GDP: 1952; II -1995: Ш) 


Д. 


MAN 














Ë 









































73 75 77 79 81 
































83 85 87 89 91 93 95 


П – 1995: Ш) 
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该 模型 不 仅仅 对 马尔 科 夫 状态 转换 模型 在 宏观 经 济 分 析 中 起 到 了 完善 的 作用 ， 
同时 也 说 明 ， 过 往 经 济 膨胀 或 萧条 的 特征 虽然 可 以 重 现 ， 但 是 不 能 机 械 地 认为 历史 


143 


PRS, 基于 隐 项 马尔 科 夫 模型 的 时 序 分 析 方法 


能 够 完全 不 变 地 被 复制 。 过 往 各 期 状态 中 因 变 量 的 分 布 可 以 用 来 预测 本 期 因 变 量 的 
分 布 ， 但 也 会 有 所 差别 。 在 利用 马尔 科 夫 状态 转换 模型 进行 状态 分 析 时 ， 模 型 设置 
会 影响 状态 的 识别 ， 而 状态 的 识别 又 会 影响 模型 的 设置 。 从 这 个 角度 来 看 ， 如 果 状 
态 识别 不 能 令 人 满意 ， 那 么 则 需要 从 数据 特征 的 认识 等 方面 再 进行 调整 ， 这 也 符合 
计量 模型 建立 的 一 般 思 路 。 
































HMM 和 SWARCH 模型 在 股市 
中 的 应 用 























大 自然 中 万 物 繁 衍生 息 、 新 旧 更 奉 ， 都 遵循 一 定 的 规律 。 这 些 规律 或 为 人 知 或 
不 为 人 知 ， 但 其 是 否 发 挥 作用 以 及 作用 的 大 小 都 不 会 因为 是 否 被 人 类 知晓 而 发 生 任 
何 变化 。 在 经 济 、 金 融 领域 也 是 如 此 。 人 金融 市 场 与 宏观 经 济 的 一 个 相似 之 处 在 于 ， 
两 者 都 会 发 生 阶段 性 的 经 济 形势 变化 ， 这 种 变化 在 宏观 经 济 中 体现 为 经 济 周期 运动 ， 
在 金融 市 场 尤其 是 股票 市 场 中 体现 为 牛市 和 能 市 的 交替 。 也 就 是 说 ， 它 们 在 一 定时 
期 都 会 体现 出 特定 阶段 的 规律 。 

认识 和 判断 经 济 和 金融 市 场 运行 的 大 趋势 具有 重要 的 指导 意义 。 只 有 顺势 而 为 
才能 在 更 大 程度 上 规避 风险 ， 或 理智 而 聪明 地 承担 风险 。 对 金融 市 场 来 说 ， 虽 然 单 
个 金融 产品 有 可 能 保持 自己 独特 的 运行 方式 ， 不 一 定 与 市 场 整体 表现 有 较 强 的 相关 
性 ,但 是 却 容易 受到 系统 性 风险 的 影响 。 而 对 于 大 多 数 金 融 产 品 来 讲 ， 很 难 在 市 场 
不 景气 的 时 候 独善其身 ， 也 容易 在 市 场 繁 琳 的 时 候 表现 更 为 强劲 。 同 时 ， 有 些 金融 
产品 与 经 济 周期 或 市 场 趋势 保持 着 稳定 的 正 向 或 反 向 的 关系 ， 利 用 对 市 场 行情 的 预 
测 可 以 有 效 地 提高 投资 回报 水 平 。 即 便 单个 金融 产品 与 市 场 整体 表现 关系 不 大 ,但 
自身 运行 也 可 能 具有 一 定 的 阶段 性 ， 如 果 能 准确 判断 出 特定 时 期 或 未 来 的 阶段 特征 ， 
也 能 够 带 来 较 高 的 回报 水 平 。 基 于 这 种 对 金融 产品 运动 趋势 和 周期 的 判断 能 力 在 投 
资 领域 被 称 为 择 时 能 力 。 

金融 市 场 不 会 永远 都 保持 不 变 ， 不 允许 线性 的 思维 方式 ， 不 会 因为 投资 人 的 主 
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观 期 望 而 永 远 向 上 或 向 下 运动 ， 且 必定 有 所 反复 。 这 个 重要 特征 可 以 用 马尔 科 夫 模 
型 来 模拟 : 假定 金融 市 场 的 运动 可 以 分 为 若干 个 形态 ， 而 每 个 形态 之 存在 相互 转化 、 
相互 联系 的 动态 关系 ， 即 服从 马尔 科 夫 过 程 。 困 难 在 于 有 多 少 个 形态 存在 、 每 个 形 
态 在 何 时 存在 、 当 前 及 接 下 来 的 形态 如 何 、 每 一 个 形态 的 特征 如 何 ， 等 等 ， 这 些 都 
无 法 从 金融 市 场 中 直接 观测 得 到 。 形 态 数 量 确定 和 每 一 个 形态 特征 需要 解决 模型 设 
置 和 佑 计 问 题 ; 每 个 形态 何 时 存在 以 及 当前 和 接 下 来 形态 如 何 需要 解决 学 习 问 题 。 
这 两 个 问题 其 实 就 是 我 们 前 面 提 到 的 EM 解法 的 两 个 基本 步 又。 

根据 有 效 市 场 理 论 ， 通 过 量化 分 析 的 方法 得 到 金融 市 场 阶段 划分 、 反 转 点 、 收 
益 风 险 阶段 特征 等 信息 之 后 ， 发 现 了 原来 不 为 大 多 数 投资 者 所 知晓 的 信息 ， 这 相当 
于 增加 了 市 场 信息 量 。 如 果 有 效 的 量化 投资 技术 被 少 部 分 投资 者 所 掌握 ， 那 么 这 部 
分 投资 者 会 更 容易 获得 持续 的 超额 收益 ， 从 而 证 伪 市 场 有 效 性 理论 ; 反之 ， 如 果 有 
效 的 量化 投资 技术 被 更 大 多 数 投资 者 所 掌握 ， 那 么 这 种 获 利空 间 就 会 减少 ， 而 更 多 
地 体现 为 市 场 有 效 性 的 提高 。 所 以 ， 量 化 投资 手段 的 应 用 在 短期 可 以 为 投资 者 带 来 
较为 丰厚 的 投资 回报 ， 在 长 期 可 以 提高 市 场 有 效 性 了 。 

本 章 利 用 马尔 科 夫 模型 来 研究 金融 市 场 指数 。 首 先 ， 介绍 上 证 综 指 历史 数据 基 
本 特征 和 所 选取 数据 ; 然后 ,说 明 马 尔 科 夫 模型 设置 情况 和 估计 方法 ; 最 后 ， 针 对 
得 到 的 结论 分 析 如 何 将 马尔 科 夫 模型 应 用 于 市 场 行情 的 判断 。 这 种 研究 方法 可 以 扩 
展 到 对 行业 、 板 块 或 个 股 的 研究 。 





加 ”随机 游 走 假说 等 市 场 有 效 性 判断 方法 将 过 去 收益 率 或 指数 数据 作为 以 往 信息 的 代理 变量 ， 通 过 考察 
自 相关 的 形式 来 判断 市 场 是 否 有 效 。 这 种 研究 方法 并 未 将 HMM 以 及 MS 的 情况 考虑 进来 。 可 能 的 情况 是 : 
观测 值 序列 并 不 直接 相关 ， 而 是 通过 潜在 的 不 可 观测 的 状态 变量 的 相关 性 来 彼此 联系 ， 从 而 发 挥 历史 信息 
的 预测 作用 。 
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及 第 一 节 股指 收益 率 与 HMM 


收益 率 特征 是 投资 者 对 股票 市 场 关注 的 重点 ， 如 何 通过 收益 率 将 股票 市 场 运行 
划分 为 牛市 和 熊市 阶段 有 助 于 投资 者 做 出 正确 键 的 投资 判断 。 这 里 利用 HMM 并 选 
取 2000 年 1 月 至 2013 年 12 月 上 证 综 指 月 度数 据 进 行 分 析 。 在 分 析 之 前 ， 通 过 对 数 
差分 方法 将 指数 历史 水 平 序列 转化 为 收益 率 序列 。 

模型 设置 考虑 到 以 下 因果 关系 : 假设 在 给 定 t 期 的 状态 变量 之 后 ， 这 t 期 因 变量 
的 分 布 不 再 取决 于 其 滞后 值 或 滞后 期 的 状态 变量 。 用 图 形 来 表示 其 中 的 因果 关系 如 下 : 





11-1 序列 不 相关 马尔 科 夫 均值 转换 模型 因果 关系 示意 图 


这 意味 着 观测 值 序列 ， 也 就 是 指数 收益 率 序列 y, 的 分 布 仅仅 取决 于 5, ， 而 与 
ул Yas y 等 历史 收益 率 都 无 关 。 这 是 一 种 简化 的 做 法 ， 目 的 是 方便 分 析 ， 重 点 
强调 问题 分 析 的 来 龙 去 脉 ， 在 实践 中 ， 可 以 考虑 序列 相关 的 情况 ， 在 某 些 情况 下 这 
也 是 非常 有 必要 的 。 根 据 这 样 的 因果 关系 ， 得 到 下 面 形式 设置 的 模型 : 


y, = Ms, +e ё, ~ii d. N(0,0°) (11.1) 
us, = (1 -S,) :po +S, * un (11.2) 
P(S, =01S,, =0) =p (11.3) 
P(S, = 118,1 =1) = (11.4) 


利用 极 大 似 然 估计 法 估计 模型 中 的 参数 。 从 状态 转换 的 平均 值 估 计 值 来 看 : ш 
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= -0.0182 , p 统计 量 为 0.00; ш, = 0.0913 ‚р 统计 量 为 0.07。 两 者 均 显著 异 于 零 。 
从 均值 来 看 ， 状 态 0 对 应 的 是 股市 中 的 熊市 ， 而 状态 1 对 应 着 股市 中 的 牛市 。 方 差 
o^ 不 随 状态 变量 变化 ， 其 估计 值 为 0.005228, p 统计 量 为 0. 00， 同 样 显著 异 于 零 。 


uA. ЕН 


К 98 0. | 


0.09 0.91 
所 以 ,熊市 的 自我 转换 概率 更 高 ， 为 0.98; 牛市 的 自我 转换 概率 较 低 ， 为 0.91。 
0.3 


0.2 
0.1 











N 
ооо-ооо-ооо- === 
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图 11 -2 上 证 综 指 月 度 收益 率 (2000 -2013 年 ) 及 平滑 概率 


从 上 面 图 11 -2 平滑 概率 可 知 : 状态 0 用 实 线 表示 ， 对 应 着 熊市 的 概率 ; 状态 
1 用 虚线 表示 ， 对 应 着 牛市 的 概率 。 在 2005 年 12 月 至 2007 年 10 月 期 间 ， 以 及 
2009 年 1 月 至 2009 年 7 月 期 间 ， 牛 市 的 概率 大 于 熊市 的 概率 ,市 场 呈 现 上 升 势头 ; 
在 其 余 期 间 市 场 长 期 呈现 熊市 特征 。 从 理论 上 来 看 ， 牛 市 的 平均 持续 期 为 10. 63 个 
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月 ， 熊 市 持续 期 为 43.45 个 月 。 但 不 幸 的 是 ， 虽 然 市 场 已 经 度 过 了 四 年 多 (大 致 53 
个 月 ) 的 熊市 时 期 ， 但 截至 2013 ЕЖ, 仍然 处 于 市 场 较 弱 的 熊市 阶段 ， 并 没有 明显 
迹象 表明 市 场 具有 进入 牛市 趋势 。 基 于 上 述 判 断 ， 可 以 得 到 下 面 策略 选择 : 

1. 基于 平滑 概率 的 操作 策略 

从 图 11 -2 中 可 以 明显 看 到 上 证 综 指 变化 的 阶段 特征 ， 基 于 这 样 的 判断 ， 可 以 
转换 投资 风格 和 风险 暴露 程度 ， 以 便 在 市 场 弱势 时 控制 风险 ， 在 市 场 强势 时 博取 更 
高 的 收益 。 根 据 资本 资产 定价 模型 承担 的 市 场 风险 与 所 获得 的 投资 回报 是 正 相 关 
的 。 那 么 ， 可 以 在 牛市 时 选择 承担 更 多 的 系统 性 风险 ， 从 而 获得 更 高 的 投资 回报 ; 
在 熊市 时 选择 承担 较 少 的 系统 性 风险 ， 从 而 避免 潜在 的 投资 损失 。 或 者 遵守 以 下 策 
Wt: 在 牛市 时 期 选择 贝塔 值 较 大 的 股票 ， 在 熊市 时 选择 贝塔 值 较 小 的 股票 ， 在 牛市 
时 采取 跟踪 股指 的 被 动 投资 策略 ， 在 熊市 时 发 挥 择 股 能 力 寻 求 稀 缺 的 投资 机 会 。 总 
之 ， 将 市 场 分 为 能 市 和 牛市 两 个 阶段 ， 在 不 同 阶段 采取 不 同 的 投资 策略 ， 相 比 缺 少 
市 场 划分 或 划分 可 靠 性 不 高 的 情况 ， 更 有 利于 提高 投资 回报 。 

2. 滤波 概率 与 平滑 概率 结合 的 操作 策略 
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11-3 上 证 综 指 滤波 概率 


图 11 -3 为 滤波 概率 ， 利 用 的 是 各 时 点 当期 的 信息 ， 而 不 是 整个 样本 期 的 信息 。 
从 图 中 可 以 发 现 ， 平 滑 概率 和 滤波 概率 两 者 大 致 相同 ， 但 也 有 一 些 差别 。 比 如 ， 滤 


149 





复兴 科技 : 基于 隐蔽 马尔 科 夫 模型 的 时 序 分 析 方 法 


波 概率 的 平滑 程度 较 低 ， 局 部 可 能 出 现 概率 的 突然 增加 。 这 意味 着 基于 滤波 概率 的 
市 场 操作 策略 会 更 为 频繁 地 改变 方向 ， 如 果 判 断 有 误 ， 那 么 频繁 的 操作 将 加 大 损失 
的 程度 。 而 平滑 概率 则 比较 一 致 ， 不 会 出 现 操作 方向 的 突变 。 其 实 ， 这 种 特点 并 不 
是 滤波 概率 的 缺点 ， 因 为 在 局 部 出 现 的 概率 突变 可 能 意味 着 较为 短期 的 投资 时 机 ， 
也 就 是 牛市 中 的 小 熊市 或 熊市 中 的 小 牛市 。 这 是 符合 股市 变化 一 般 规 律 的 ， 如 果 抓 
住 这 些 零散 的 投资 时 机 ， 那 么 也 能 获得 较 高 的 投资 回报 。 

投资 者 们 普遍 感觉 ， 在 当前 的 这 个 时 期 内 很 难 获得 较 高 的 投资 收益 ， 这 与 我 国 
股票 市 场所 处 的 阶段 是 分 不 开 的 。 只 有 具备 较 强 的 择 股 能 力 才 能 在 困境 中 寻找 到 合 
适 的 投资 标的 ， 从 而 取得 超越 市 场 的 投资 回报 。 下 面 将 马尔 科 夫 状态 转换 模型 应 用 
到 对 个 股 的 研究 中 。 


bm W 股指 波动 性 与 SWARCH 模型 


Kim, Nelson 和 Startz (1998) 将 三 个 状态 的 马尔 科 夫 方差 转换 模型 运用 到 1926 
年 1 月 至 1986 % 12 月 期 间 股 票 月 收益 数据 中 ， 以 此 来 处 理 数据 异 方差 问题 。 我 们 现 
在 关注 的 是 如 何 利 用 三 状态 马尔 科 夫 转换 模型 来 对 股票 收益 做 出 可 靠 的 预测 和 估计 。 

Fama (1963) 和 Mandlebrot (1963) 指出 ， 股 票 收 益 服从 具有 一 定 偏 度 和 较 大 
峰 度 的 非 正 态 分 布 。Turner，Startz 和 Nelson (1989) 也 同样 指出 ， 股 票 市 场 收 益 分 
布 具有 典型 的 高 峰 、 厚 尾 、 条 件 异 方差 等 特征 。 因 此 ，Engle (1982) 和 Bollerslev 
(1986) 将 ARCH 模型 应 用 在 股票 收益 率 的 条 件 异 方差 研究 中 。 另 外 有 关 股 票 收 益 
分 布 的 建 模 方法 上 也 不 仅 局 限于 一 个 或 一 种 分 布 ， 而 是 假定 收益 率 服从 由 多 个 分 布 
组 成 的 混合 分 布 ， 从 而 解决 了 单一 、 非 时 变 方差 模型 存在 的 问题 ， 我 们 在 第 二 部 分 
对 此 方法 进行 过 详细 的 讨论 。 

利用 马尔 科 夫 机 制 转换 模型 同样 可 以 较 好 地 拟 合股 票 市 场 收 益 率 序列 的 方差 。 
在 较 早 期 的 研究 中 ，Hamilton 和 Susmel (1994) 提出 了 SWARCH (Switching 
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ARCH) 模型 。 在 这 个 模型 中 ， 他 们 允许 ARCH 模型 的 系数 来 自 几 个 不 同 状 态 下 的 
参数 组 合 ， 每 一 个 状态 对 应 一 个 参数 组 合 。 同 前 面 的 分 析 一 样 ， 这 种 指示 关系 通过 
状态 变量 来 实现 。Hamilton 和 Susmel (1994) 将 SWARCH 模型 应 用 在 股票 每 周 的 收 
益 率 数据 上 ， 他 们 发 现 ARCH 的 影响 在 一 个 月 后 几乎 完全 消失 。Hamilton 和 Susmel 
(1994) SWARCH 模型 的 简化 形式 如 下 : 


y, = Cy, (11.5) 
у, = Һе, ё, = L L d. t (11. 6) 
h, = ao + ош E аи? + Bd, уу (11.7) 


其 中 o, 是 马尔 可 夫 转 换 方差 , 4,, 是 用 来 表示 杠杆 效应 的 虚拟 变量 。 由 于 肥 尾 
分 布 ，: 分 布 能 够 更 好 地 描述 股票 价格 上 升 慢 ， 下 降 快 。Hamilton 和 Susmel 的 估计 
结果 显示 入 = a, +a, = 0.48 。 这 里 , A = 0.05 ， 这 说 明 受 jw 或 ARCH 影响 产生 的 
波动 效应 在 一 个 月 后 几乎 完全 消失 ， 所 以 ， 在 为 月 度 股票 收益 率 建 模 的 时 候 ， 并 不 
需要 考虑 ARCH 效用 。 

Kim, Nelson 和 Startz (1998) 考虑 了 如 下 三 种 状态 下 的 股票 周 收益 马尔 可 夫 转 
换 模 型 : 


y, ~ N(0,02) (11. 8) 
о = 6151, + 025», + 038, 611.9) 
WRS, -k(k-1,2,3), WS, =1; AMS, =0。 

P(S, =j! S =D =p, tf =1,2,3 (11. 10) 

3 

>p, = 1 

j=l 

o < оз < а (11.11) 


其 中 , y, 是 去 均值 后 的 月 股票 收益 率 , S, 是 不 可 观测 的 状态 变量 ， 且 由 具有 转换 
概率 的 一 阶 马尔 科 夫 过 程 演变 而 来 。 式 11. 11 是 模型 识别 的 必要 条 件 ， 表 11 -2 给 
出 了 相关 的 参数 估计 和 标准 误差 。 
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表 11 -2 异 方差 下 股票 收益 的 三 状态 马尔 可 夫 转 换 模型 的 极 大 似 然 估 计 






































参数 估计 值 方差 
Pu 0. 9736 0. 0177 
рь 0. 0264 0. 0177 
Pr | 0. 0197 0. 0120 
р» | 0. 9686 0. 0142 
Pp 0. 0028 0. 0193 
Pa 0. 0460 0. 0376 
с! | 0. 0012 0. 0002 
сі 0. 0040 0. 0005 
сі 0. 0310 0. 0057 
似 然 值 — 1001. 90 


Kim 等 人 检验 了 三 状态 马尔 可 夫 转 换 方差 ， 结 果 并 没有 发 现 ARCH 效应 。 这 与 
Hamilton 和 Susmel 等 人 的 结果 一 致 。 此 外 ,标准 化 收益 率 序 列 的 峰值 并 不 明显 ， 
Jarque - Bera 正 态 检 验 的 p 值 为 0.073， 也 就 是 说 ， 在 5% 的 置信 水 平 上 并 不 能 拒绝 
标准 化 收益 率 是 正 态 分 布 的 原 假设 。 这 些 结果 表明 ， 三 状态 的 马尔 科 夫 转换 方差 模 
型 为 1926 年 1 月 至 1986 年 12 月 股票 月 收益 率 异 方差 性 提供 了 一 个 可 信 的 解释 。 

下 面 利用 SWARCH 模型 来 探讨 我 国 股市 波动 性 问题 ， 选 取 1991 年 1 月 至 2013 
年 12 月 上 证 综 指 的 周 度 历 史 收益 率 数据 进行 分 析 。 

利用 模型 选取 准则 确定 状态 个 数 为 2。 而 且 从 三 状态 的 机 制 转换 ARCH 模型 可 
以 发 现 ， 仅 有 两 个 状态 明显 主导 了 整个 市 场 波 动情 况 ， 第 三 个 状态 可 以 忽略 不 计 。 
因此 ， 波 动 状态 个 数 确 定 为 两 个 。 同 样 利 用 模型 选取 准则 最 终 确 定 采 取 SWARCH 模 
型 来 进行 估计 Q， 其 中 条 件 方差 为 一 阶 自 相 关 过 程 。 利 用 极 大 似 然 算 法 求 得 模型 参 
数 和 波动 性 状态 。 我 们 期 望 达到 两 个 目的 : 

首先 ， 波 动 性 参数 是 资本 市 场 定价 模型 和 投资 决策 的 基础 ， 也 是 绩效 考核 的 关 
键 ， 对 波动 性 更 加 准确 的 估计 有 利于 有 效 控制 投资 风险 ， 更 加 聪明 地 承担 必要 的 市 
场 风险 ， 并 科学 地 考核 投资 业绩 。 利 用 SWARCH 模型 和 表 11 -2 中 的 参数 估计 ， 可 





® ”在 这 里 ， 观 测 值 序列 一 阶 自 相关 或 无 自 相关 对 研究 结论 影响 不 大 。 
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以 形成 上 证 综 指 波动 性 的 有 效 预 期 。 


表 11 -3 上 证 综 指 收益 率 SWARCH 模型 参数 估计 




















参数 估计 值 方差 

Pu 0. 9973 0. 0021 

Pr 0. 9922 0. 0786 

o; 0. 0540 0. 0032 

oj 0. 0757 0. 0005 
似 然 值 - 3463. 2813 





其 次 ， 可 以 通过 市 场 波动 性 的 阶段 划分 来 确定 市 场 阶段 性 变化 。 从 图 11 -4 中 
可 以 看 出 ,我 国 股市 大 致 经 历 了 两 个 波动 性 较 大 的 时 期 : 1997 年 之 前 ， 以 及 2006 
年 底 至 2009 年 底 。 第 一 个 时 期 的 高 波动 性 是 因为 我 国 股 市 在 1996 年 12 月 26 НЯ 
开始 实行 涨停 板 制度 ， 所 以 股指 相对 来 说 保持 了 较 高 的 波动 性 ; 第 二 个 时 期 的 高 波 
动 性 对 应 着 股指 水 平 冲击 历史 高 位 的 时 期 ， 股 指 从 2000 点 以 下 一 直 冲 到 6124 xi, 
但 是 又 在 接 下 来 的 一 年 深度 下 跌 到 2000 点 以 下 ， 之 后 的 一 年 保持 增长 趋势 ， 指 数 反 
弹 到 3500 左右 。 但 之 后 整体 呈现 下 跌 趋 势 ， 市 场 波动 性 也 有 大 幅度 下 降 。 结 合 
12 -2， 从 收益 率 和 波动 性 综合 角度 看 ， 市 场 牛市 和 熊市 相互 交 蔡 的 阶段 往往 伴随 着 
市 场 波动 性 的 放大 。 这 也 为 寻找 市 场 反 转 时 机 提供 了 一 定 的 依据 。 
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图 11 -4 上 证 综 指 处 于 高 波动 时 期 的 平滑 概率 
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